Download presentation
Presentation is loading. Please wait.
Published by隆 计 Modified 7年之前
1
数据可视化基础 数据科学 陈为 chenwei@cad.zju.edu.cn
2
内容提纲 大数据时代 数据科学简介 大数据的案例
3
大数据的定义与特性 大数据用来定义那些大小超出常用软件工具在可承受的运行时间内进行数据捕获、管理和处理的能力的数据集。 大数据的3V特性 3
4
美国政府的大数据计划 2009年,美国国家标准技术研究所(NIST)帮助发表了一 篇题为“控制数据的力量”的报告,对
大数据研发计划的开展有许多影响。 2011年,总统科技顾问委员会(PCAST) 提出增加美国在大数据研发方面投入的 建议,同时成立大数据高层指导小组。 2012年3月29日奥巴马政府公布了“大数据研发计划” (Big Data Research and Development Initiative)
5
美国政府的大数据计划 国防部(DoD) 自然语言处理(Machine Reading) 视觉智能(Mind’s Eye)
安全云(Mission Oriented Resilient Clouds) 对加密数据的编程计算(PROCEED) 对视频和图像的检索和分析工具(VIRAT) CINDER计划 Insight计划
6
美国政府的大数据计划 国土安全部(DHS) 可视化数据分析(CVADA) 能源部 (DOE)
ASCR计划,提供数据管理,可视化和数据分析的社区,包括数字化保存和社区访问 生物和环境研究计划(BER) 系统生物学知识库(Kbase) 美国核数据计划(USNDP) NASA 全球地球观测系统(GEOSS) 行星数据系统(PDS)
7
美国政府的大数据计划 卫生和人类服务部(HHS) 生物传感2.0 计划 癌症成像存档(TCIA) 癌症基因组图谱(TCGA)
传染病代理研究模型(MIDAS) 人口研究数据共享(DSDR) 计算神经科学的合作研究(CRCNS) 食品药品监督管理局(FDA) 虚拟实验室环境(VLE)计划 国家安全局(NSA) 情报共同体(IC)计划
8
美国政府的大数据计划 美国国家自然基金委(NSF) 开发、整合一套一体化的数据工具和先进的基础设施方案以支持科学和教育。
美国国家卫生研究院(NIH) The Structural Genomics Initiative,通过发现,分析和传播蛋白质的三维结构,RNA和其他生物大分子结构,展现生物的多样性,以促进在生物学,农业和医药的基本认识和应用。 美国地质调查局(USGS) 利用庞大的数据集、先进的计算能力和协作工具,提高对一些地球问题的认识,如气候变化,地震的复发率。
9
多尺度异常检测(ADAMS) 2011年由国防部高级研究计划局(DARPA)提出。 投资:3500万美元。
该项目旨在发现和防止内部威胁。系统预期输出对象是反间谍机构。 同时可以用于解决大规模数据集的异常检测和特征化,用于商业融资等其他领域。 核心技术由乔治亚理工学院高性能计算团队研发。
10
Insight计划 解决目前情报,监视和侦察系统的不足,进行自动化和人机集成推理,使得能够提前对时间敏感的更大潜在威胁进行分析
开发新的方法来检测军事计算机网络与网络间谍活动
11
XDATA计划 国防部高级研究计划局(DARPA)今年提出开始XDATA计划。 将在四年里拟投资每年2500万美元。
开发用于分析大量的半结构化和非结构化数据的计算技术和软件工具。 提出的挑战: 开发可扩展的算法处理分布式数据中不完整存储的数据。 研发有效的人机交互工具促进在各种各样的任务中快速分析并反馈最重要的视觉信息。
12
DAX计划 高级科学计算研究办公室(ASCR)提出。 DAX是一个为推动百万兆级计算所需的数据分析和可视化算法提供细粒度并发支持的工具包。
基本单元是实现一个网格里元素行为的函数。 每个函数只能访问传递和调用的元素,避免了内存冲突从而实现无限数量的线程并发。 执行器遍历网格所有元素,调用一个或多个函数处理无差别功能的元素并收集每个元素的值。
13
PROMIS计划 病人报告结果测量信息系统
2002年5月,国家卫生研究所召开多个会议为21世纪的医学研究制定了发展路线并提出了NIH共同基金。 为支持重要项目之一的慢性疾病病人临床研究动态评估,由NIH共同基金提出了合作项目PROMIS。 PROMIS是一个高度可靠,有效,灵活,准确,反应病人健康状况的评估工具系统。 核心资源是评估中心:提供工具和数据库,以帮助研究人员收集,存储,分析病人的健康状况有关的数据。
14
EOSDIS计划 NASA提出的地球科学数据和信息系统研制计划 主要目标:
处理、存储与分发地球科学卫星数据。 提供用于方便管理地球科学数据的工具。 促进地球科学数据的跨学科使用。 通过国际之间地球观测数据的共享和整合,推动地球系统科学,满足气候和环境变化的挑战。 有12个数据中心,14个科学研究处理系统以及26个合作伙伴为项目提供支持。
15
大数据计划特点总结及高校面临的挑战 美国“大数据计划”特点 应用单位提出,应用单位主导 有非常明确的应用需求,要求解决实际问题
应用单位完全掌握大数据资源 高校参与关键技术研究 我国高校面临的挑战 不掌握大数据来源 很难得到真正的实际需求 无能力建设试验环境 不能提供足够的人力资源
16
数据产品 提取、转换、加载 (ETL) 商业智能 分析
17
数据准备-复杂化 语法错误 语义错误 缺失值 异常检测 再归一化 编码 降维 整合
18
数据准备-语法和语义错误 利用:日志! 对于文本格式,人来检查是可能的 进行语法或语义变化,或者检查数据源是否有错?
维护一个记载错误记录的文件 尽可能多地捕捉出错地方的状态 能够帮助确定数据源的错误 对于文本格式,人来检查是可能的 对于二进制格式,使用16进制编辑器 进行语法或语义变化,或者检查数据源是否有错? 涉及到其他记录和数据源的限制是十分难查的
19
数据准备-扩展性问题 已有的数据和需要的数据均是动态的目标 修复找到的错误会是极耗资源或不可能的 容错 数据质量是一个过程
经常会在分析数据是发现问题 修复找到的错误会是极耗资源或不可能的 容错 保留初始数据 能够将工作流的阶段回滚 允许以前工作的重用
20
数据准备-扩展性问题 工作流元数据管理 工作流进度估计 工作流单元重用 现在正在运行什么? 自动源捕获 对工作流进行版本编号
必须向下流进程通信 工作流单元重用 在复合时:常用工作流库 在执行时:消除工作流常见任务的冗余
21
数据表现 数据表现概览 图表 单变量 双变量 其他 图表的选择 设计的考虑 表格 颜色 活板印刷
22
数据表现-例子 图 信息图 表格 图表 信息窗 介绍 文档 视频 应用程序
23
数据表现 图
24
数据表现 图
25
数据表现 图
26
数据表现 图
27
数据表现 信息图
28
数据表现 信息图
29
数据表现 信息图
30
数据表现 信息图
31
数据表现 表格
32
数据表现 图表
33
数据表现 信息窗
34
数据表现 信息窗
35
数据表现 信息窗
36
数据表现 图像
37
设计的考虑 表格和图表 减少图表垃圾/表格垃圾;增加数据墨水比 认知的限制:限制一次展示的物体数量 颜色
颜色模式 对比、强调 与公司一致 6大格式塔原则:接近、相似、圈围、封闭、连续、连接(proximity, similarity, enclosure, closure, continuity, connection)
38
数据产品 不要只关注“思想” 你构建了数据集 你构建了信息窗 你构建了实验平台 其他你可以构建的事 搜索 广告定位 垃圾检测 内容推荐
39
Facebook大数据案例 潜在的朋友
40
提纲 推荐谁? 静态,离线预测 动态,在线重排序 性能/热身
41
你可能认识的人 前1~2个推荐会直接显示在Faceboook的主页上 查看所有链接会使用户看到更多的推荐
很多的好友都是直接在主页而不是“查看所有”页面被添加的 ‘Xing’某个用户把某人永远地从列表里删除 在未来的推荐中取消掉 占了Facebook中朋友中的很大一部分内容
42
帮助用户在FB上找到好友 推荐已经在很多应用中得到了证明 和他们一样,我们可以通过作出优秀的推荐来增加我们对用户的价值
Amazon、NetFlix等都有复杂的系统 和他们一样,我们可以通过作出优秀的推荐来增加我们对用户的价值 有更多好友的用户更频繁地使用网站,从中也得到更多 不像那些系统(协同过滤)我们必须要考虑社交背景
43
好友统计 大约每天有两亿的页面互访 新用户(注册帐号不超过两周)每天要连接4千万
26%直接来自于PYMK的贡献(点击PYMK添加链接) 另外14%是间接引起的 新用户(注册帐号不超过两周)每天要连接4千万 28%直接通过PYMK,总共为42% 没有“你可能认识的人”(PYMK)时很多人可能都无法被他人所发现 被从PYMK上移除的新用户在6周以后会少27%的好友
44
如何推荐 大部分的友谊来自于朋友的朋友(Friend of Friend, F-F) 从实际的角度来看,做比F-F更深入的工作是不可能的了
以前的工作表明FoF(2跳)的友谊比多余3跳的友谊要多五倍以上 FB上92%的新朋友关系 从实际的角度来看,做比F-F更深入的工作是不可能的了 一般用户平均有超过130个好友 130×130 = 17K FoFs 130^2 = 2.2M FoFoFs 特殊的用户会有大约5000个好友
45
推荐朋友的朋友 问题陈述: 挑战: 给定一个源用户,找到最佳的朋友的朋友推荐给他
一个典型的用户会有成百上千的FoFs(平均为40K,有一部分人会达到800K!) 哪些特性可以帮助我们从中进行选择 我们如何结合网络和人口特性
46
共同好友 共同好友数目是一个很好的指标 其他社交网络特性也很有帮助: 我们可以结合网络特性:
两个有10个共同好友的人成为好友的概率是仅有1个共同好友的12倍 其他社交网络特性也很有帮助: 比如,如果你的好友刚刚添加了一个新的还有,这也是一个很好的推荐 我们可以结合网络特性: 𝛿 𝑢,𝑣 给出了边创建以来的时间
47
系统概览 系统检测所有的FoFs 存储评分并且使用简便易得的数据来预测实时的CTRs 结果被反馈到系统并保留 产生前100位候选人列表
候选人被重新排序并且在每次访问时展示 结果被反馈到系统并保留 实时模型依赖于输出分数,并进行在线训练来保证CTR预测的准确性
48
进行静态预测 使用传统机器学习 对一个用户u,考虑所有的FoFs w1,…,wk 对每一对(u, wj) 生成一系列特性
共同好友,很久以前的共同好友,新的共同好友等 也结合u和wj各自的特性 年龄、性别、国家、总的朋友、在FB的时间等 我们使用袋装决策树(许多决策树的平均) 训练集来自于以前的PYMK 只训练 “first impression”或主页
49
好友的好友特性 两类特性 用于预测的最重要特性 带权的共同好友(MFs) 个人特点 时间流逝的共同好友 源用户的国籍和FB年龄 好友数目
实际的MFs、带时间权重的MFs、有向的MFs、带强度权的MFs、推迟的MFs 个人特点 年龄、国家、FB年龄、性别、朋友数 由于用户平均有40K个FoFs,这些必须在每台机器上进行冗余备份而不是共享 用于预测的最重要特性 时间流逝的共同好友 源用户的国籍和FB年龄 好友数目
50
特性选择 首要特性 1.时间权重,有向共同好友 2.国家(u) 3.从u到v的带权重边
某些国家的用户相比于其他国家的用户更倾向于使用某些特性 3.从u到v的带权重边 来自于信息订阅的权重粗略地暗示了联系的强度 4和5是其他的共同好友权重,其他重要特性是U的度,V的度以及U的年龄
51
巨大的代价 用户平均有40K个FoFs 共有超过500M的用户 40K × 500M = 20 T 多台拥有72G内存的机器(40台)
每台机器都存了社交图的一部分在内存中(对单台机器来说太大了) 即便如此,我们至少要在2天中才能算出新的推荐 为了保证对新用户进行最佳的推荐,我们会为他们进行更多的计算
52
推荐生成 社交图被40台机器所共享 请求会直接送到有用户好友列表的机器 结果被汇总并排序 包括边上的注释:创建时间、方向,权重
这台机器分割好友列表并且向其他机器请求FoFs 结果被汇总并排序 前100位被返回
53
推荐生成 使用了4台机器的简单例子 4号用户请求PYMK 向其他机器请求FoFs(本地的机器也一样被请求) 每个FoF的特征向量被聚集
4号用户和5,6,7,13,26,31,121等用户是好友 向其他机器请求FoFs(本地的机器也一样被请求) 请求包括去权重(如时间) 每个FoF的特征向量被聚集 14:2, 18, 81 17:2, 53, 12 123: 2, 0, 0
54
提高效率和内存利用率 为每个用户都运行40K个FOFs的决策树评价是不可能 的 不想使用网络来获得年龄、性别等信息
使用启发式方法来缩小范围 通过共同好友特性建立logistic模型来选择出前1K 使用线性时间排N算法来找到截止(不是nlogn排序) 仅在前1K上运行完全决策树算法 不想使用网络来获得年龄、性别等信息 从前1000用户中选择出前100 只有那些人才能被展示 为了保证多样性,会暂时不推荐已经向用户推荐了4次以上的好友
55
将可获得的信息和评分相结合并通过Logistics模型来进行重排
每次都展示最好的推荐 为了优化推荐,我们在每次推荐以后都再次重排 决策模型只能每两天运行一次 他们为每个用户对(u, wi)输出一个评分 不能为每次推荐进行过多的运算,但是可以适量运算 简单特性在每次推荐的时候都存在 (u, wi)的分数,对(u, wi)的推荐次数, U的朋友数,wi的朋友数 将可获得的信息和评分相结合并通过Logistics模型来进行重排
56
通过Logistics回归进行重排 简单logistics回归模型进行CTRs预测的表现良好 从两方面来提高质量
对某个推荐给定特性 F1、F2、 F3 预测CTR = logistics(C0+C1*F1+C2*F2+…) 从两方面来提高质量 不要不断重复某个推荐,展示过往的最佳推荐 如果用户从来都不用PYMK,就停止推荐
57
通过Logistics回归进行重排 简单logistics回归模型进行CTRs预测的表现良好 从两方面来提高质量
对某个推荐给定特性 F1、F2、 F3 预测CTR = logistics(C0+C1*F1+C2*F2+…) 从两方面来提高质量 不要不断重复某个推荐,展示过往的最佳推荐 如果用户从来都不用PYMK,就停止推荐 实现简单,很多的软件可以被用来学习参数 使用用户历史数据来个个性化推荐能获得巨大的效果提升
58
机器学习挑战 对过去数据的良好预测并不总是有价值 如果是从头开始训练,需要一定量的迭代以达到收敛
在该数据上训练的模型,部署了以后 新模型过高评价了那些没在之前 数据中出现的推荐; 点击率骤减 对过去数据的良好预测并不总是有价值 可能会给予没有出现在以前数据集里的推荐很高的评分 如果是从头开始训练,需要一定量的迭代以达到收敛 目前使用在线学习系统来进行CTR预测
59
组合系统
60
上下文PMYK 简单扩展以后使得推荐可以根据当前的上下文 之前的排序仅根据共同好友数据(在我和他们之间)
在确定了一个好友的请求之后,推荐一些该好友的朋友 但是应该是哪些人? 之前的排序仅根据共同好友数据(在我和他们之间) 使用学习好的模型(和其他PYMK基于相同的特性),增加了40%的好友添加
61
性能 两个性能指标 总能通过牺牲其他指标来提高某个指标 离线模型的首次发送和早期的CTR预测 建立的还有关系 CTR 从那时开始的一些不足
总的来说,增加了60% 同时,有下调趋势的CTR预测下降了1/3 因此,CTR提高了130%
62
要点 边注释是重要的特性 从简单的用户需求来获得巨大的成功 ~3个人带动了在FB上的~40%的交友==每个人每秒交385个朋友
图并不仅是点和边 --- 边有时间,方向和权重 从简单的用户需求来获得巨大的成功 了解人们在用什么、人们不在意什么、展示他们喜欢的内容 ~3个人带动了在FB上的~40%的交友==每个人每秒交385个朋友
Similar presentations