数据可视化基础 数据科学 陈为 chenwei@cad.zju.edu.cn http://www.cad.zju.edu.cn/home/chenwei/visclass.

Slides:



Advertisements
Similar presentations
如何學好數學? 黃駿耀老師
Advertisements

辅助核算 3.5.
10 郑和远航.
三个偶像的故事和功绩 ——第12课 明清时期的反侵略斗争 董飞燕.
捣蛋鬼历险记 初一四班 孙嘉佑小组.
中國歷史 明代之患禍及民變.
10 郑和远航 郑和 郑和,1371年生于云南昆阳州(今昆明晋宁县)一个信奉伊斯兰教的回族家庭,原名马和,小字三宝,十一岁时在明太祖朱元璋发动的统一云南的战争中被俘进宫,后当朱元璋四子燕王朱棣的近侍。1403年朱棣登基,史称明成祖。次年正月初一,朱棣念他有勇有谋,屡立奇功,便赐姓“郑”,改称郑和,并提拔为内宫太监,于永乐三年(1405年7月11日)率领庞大船队首次出使西洋。自1405年到1433年,漫长的28年间,郑和船队历经亚非三十余国,涉十万余里,与各国建立了政治,经济,文化的联系,完成了七下西洋的伟
明清 抗击外国侵略的英勇斗争 雅克萨反击战(俄) 戚继光抗倭(日) 郑成功收复台湾(荷兰) 荷兰 俄 罗 斯 日 本 台湾 沙 俄 入 侵
戚继光抗倭.
刑事訴訟法 授課人:林俊益副教授 時間:95.9.~96.6..
妩媚人生 云 计 算 与 大规模数据并行处理技术 黄 宜 华 南 京 大 学 计算机科学与技术系 软件新技术国家重点实验室 妩媚人生 妩媚人生
第16 课 中外的交往与冲突 授课人:鲍婷.
历史上的中日关系.
云南外事外语职业学院 入党积极分子培训 赵田甜.
第四章 清代臺灣的社會文化變遷 第一節 移墾社會的形成
認識食品中毒 一、什麼是食品中毒? 二人或二人以上攝取相同的食品而發生相似的症狀,並且自可疑的食餘檢體及患者糞便、嘔吐物、血液等人體檢體,或者其它有關環境檢體(如空氣、水、土壤等)中分離出相同類型(如血清型、噬菌 體型)的致病原因,則稱為一件“食品中毒”。 但如因攝食肉毒桿菌毒素或急性化學性中毒而引起死亡,即使只有一人,也視為一件“食品中毒”。
題目:四大古文明 班級:六年八 班 組員:賴宣光.游家齊.陳羿文 吳佳芬.許淑婷.許芳瑜..
食 物 中 毒.
琦君 《髻》 S 康倩瑜.
眼乾乾唔使慌.
滑膜皱襞综合征.
“公平”是最热的关键词 1、胡锦涛首次进行“总动员”,提出“在促进发展的同时,把维护社会公平放到更加突出的位置” 。
贵州省公务员面试 备考指导 中公教育 面试讲师 刘运龙.
外 套 各式領型與變化 武 玫 莉 製 作.
第4节 人体对食物的消化吸收.
陈冤之魅,心鬼之泪 ——雾里探花 《东方快车谋杀案》 By第二小组.
高考作文等级评分标准/发展等级10分 深刻 丰富 有文采 有创意 ①透过现象 深入本质 ②揭示问题 产生的原因 ③观点具有 启发作用
文明礼仪在我心 文明礼仪在我心.
第10课 社会生活的变迁.
故事会 盘古开天劈地 在很久很久以前,天地可不象我们现在看到的这样————天高高的在上面,地在我们的脚下,中间隔着几千几万米远。那个时候的天地就象是一个包在大黑壳里的鸡蛋,混混沌沌的,什么也看不清。人们走路都得弯着腰,耕田打猎都很不方便,因为一不小心抬个头,就会碰到天,惹它生气,接着就会招来狂风暴雨。因此所有的植物也都长不高,所以结的粮食和果实都很少,根本就不够大家吃。还经常会发生饿死人的事情。
面向三农,拓宽信息渠道 辐射千村,服务百万农民
三招 让孩子爱上阅读 主讲人:芝莺妈妈 2012年10月19日.
FUZHUANGZHITUYANGBANZHIZUO
如何挑選吳郭魚 嗨~ 餐旅二乙 4a2m0105 白妤潔 4a2m0122 何姿瑩.
学校春季呼吸道传染病预防知识 连云港市疾病预防控制中心
服裝整理概論.
印染纺织类艺术.
创业计划书的编写.
创业计划书撰写.
第九章 进行充分调研 选择自主创业.
香溢饺子馆创业计划书.
第三章 中国的民族民俗 第一节 概论 第二节 汉族 第三节 满族 蒙古族 维吾尔族 回族 朝鲜族 第四节 壮族 土家族 苗族 黎族
第 4 章 投资银行: 基于资本市场的主业架构.
创业数字图书馆.
中国管理科学发展探索 成思危 2006年8月18日于上海复旦大学.
“四文”交融,虚实并举,打造具有鲜明职教特色的校园文化 ——江苏省扬州商务高等职业学校校园文化建设汇报
103年度高職優質化輔助方案計畫申辦及輔導訪視說明會
“十二五”科技发展思路 与科技计划管理 科技部发展计划司 刘敏 2012年9月.
社区妇幼保健工作 江东区妇幼保健院 胡波瑛.
人生不要太圓滿 ◎ 張忠謀.
导致羊水过少的五大因素.
胎教.
怎样进行一次宣讲 何惠玲.
第三课 中国共产党的历程.
[聚會時,請將傳呼機和手提電話關掉,多謝合作]
规范母婴保健服务 努力降低孕产妇死亡率 市卫生局基妇科 朱静.
中国地质科学院矿产资源研究所 财务报账培训
白天的月亮 想與日爭輝 人生不要太圓滿 文字取自於:張忠謀 攝於陽明山 阿道的攝影工作坊.
第十章(上) 实现中华民族的伟大复兴.
营养要均衡.
ㄩ.
高中新课程历史必修(Ⅰ) 教材比较研究 四川师范大学历史文化学院教授 陈 辉 教育部2009普通高中历史课改远程研修资料.
十年职业生涯规划 —— 年 姓名:刘娟 学号:.
主考官眼中的面试 ——面试主考官教你备战2016年国考面试 主讲老师:李海鹏.
国内知名高校 医学院(部、中心) 院系及附属医院设置情况 调研报告
財務報表分析 授課教師:陳依婷.
第六章 可供出售金融资产 一、可供出售金融资产的概念和特征 二、可供出售金融资产的核算.
主讲人:刘文波 (四会国税 政策法规股) 2014年4月
智慧宁波 智慧财税 . 宁波市地方税务局.
第六模块礼仪文书写作 第一节求职信、应聘信 QIUZHIXINYINGPINXIN.
Presentation transcript:

数据可视化基础 数据科学 陈为 chenwei@cad.zju.edu.cn http://www.cad.zju.edu.cn/home/chenwei/visclass

内容提纲 大数据时代 数据科学简介 大数据的案例

大数据的定义与特性 大数据用来定义那些大小超出常用软件工具在可承受的运行时间内进行数据捕获、管理和处理的能力的数据集。 大数据的3V特性 3

美国政府的大数据计划 2009年,美国国家标准技术研究所(NIST)帮助发表了一 篇题为“控制数据的力量”的报告,对 大数据研发计划的开展有许多影响。 2011年,总统科技顾问委员会(PCAST) 提出增加美国在大数据研发方面投入的 建议,同时成立大数据高层指导小组。 2012年3月29日奥巴马政府公布了“大数据研发计划” (Big Data Research and Development Initiative)

美国政府的大数据计划 国防部(DoD) 自然语言处理(Machine Reading) 视觉智能(Mind’s Eye) 安全云(Mission Oriented Resilient Clouds) 对加密数据的编程计算(PROCEED) 对视频和图像的检索和分析工具(VIRAT) CINDER计划 Insight计划

美国政府的大数据计划 国土安全部(DHS) 可视化数据分析(CVADA) 能源部 (DOE) ASCR计划,提供数据管理,可视化和数据分析的社区,包括数字化保存和社区访问 生物和环境研究计划(BER) 系统生物学知识库(Kbase) 美国核数据计划(USNDP) NASA 全球地球观测系统(GEOSS) 行星数据系统(PDS)

美国政府的大数据计划 卫生和人类服务部(HHS) 生物传感2.0 计划 癌症成像存档(TCIA) 癌症基因组图谱(TCGA) 传染病代理研究模型(MIDAS) 人口研究数据共享(DSDR) 计算神经科学的合作研究(CRCNS) 食品药品监督管理局(FDA) 虚拟实验室环境(VLE)计划 国家安全局(NSA) 情报共同体(IC)计划

美国政府的大数据计划 美国国家自然基金委(NSF) 开发、整合一套一体化的数据工具和先进的基础设施方案以支持科学和教育。 美国国家卫生研究院(NIH) The Structural Genomics Initiative,通过发现,分析和传播蛋白质的三维结构,RNA和其他生物大分子结构,展现生物的多样性,以促进在生物学,农业和医药的基本认识和应用。 美国地质调查局(USGS) 利用庞大的数据集、先进的计算能力和协作工具,提高对一些地球问题的认识,如气候变化,地震的复发率。

多尺度异常检测(ADAMS) 2011年由国防部高级研究计划局(DARPA)提出。 投资:3500万美元。 该项目旨在发现和防止内部威胁。系统预期输出对象是反间谍机构。 同时可以用于解决大规模数据集的异常检测和特征化,用于商业融资等其他领域。 核心技术由乔治亚理工学院高性能计算团队研发。

Insight计划 解决目前情报,监视和侦察系统的不足,进行自动化和人机集成推理,使得能够提前对时间敏感的更大潜在威胁进行分析 开发新的方法来检测军事计算机网络与网络间谍活动

XDATA计划 国防部高级研究计划局(DARPA)今年提出开始XDATA计划。 将在四年里拟投资每年2500万美元。 开发用于分析大量的半结构化和非结构化数据的计算技术和软件工具。 提出的挑战: 开发可扩展的算法处理分布式数据中不完整存储的数据。 研发有效的人机交互工具促进在各种各样的任务中快速分析并反馈最重要的视觉信息。

DAX计划 高级科学计算研究办公室(ASCR)提出。 DAX是一个为推动百万兆级计算所需的数据分析和可视化算法提供细粒度并发支持的工具包。 基本单元是实现一个网格里元素行为的函数。 每个函数只能访问传递和调用的元素,避免了内存冲突从而实现无限数量的线程并发。 执行器遍历网格所有元素,调用一个或多个函数处理无差别功能的元素并收集每个元素的值。

PROMIS计划 病人报告结果测量信息系统 2002年5月,国家卫生研究所召开多个会议为21世纪的医学研究制定了发展路线并提出了NIH共同基金。 为支持重要项目之一的慢性疾病病人临床研究动态评估,由NIH共同基金提出了合作项目PROMIS。 PROMIS是一个高度可靠,有效,灵活,准确,反应病人健康状况的评估工具系统。 核心资源是评估中心:提供工具和数据库,以帮助研究人员收集,存储,分析病人的健康状况有关的数据。

EOSDIS计划 NASA提出的地球科学数据和信息系统研制计划 主要目标: 处理、存储与分发地球科学卫星数据。 提供用于方便管理地球科学数据的工具。 促进地球科学数据的跨学科使用。 通过国际之间地球观测数据的共享和整合,推动地球系统科学,满足气候和环境变化的挑战。 有12个数据中心,14个科学研究处理系统以及26个合作伙伴为项目提供支持。

大数据计划特点总结及高校面临的挑战 美国“大数据计划”特点 应用单位提出,应用单位主导 有非常明确的应用需求,要求解决实际问题 应用单位完全掌握大数据资源 高校参与关键技术研究 我国高校面临的挑战 不掌握大数据来源 很难得到真正的实际需求 无能力建设试验环境 不能提供足够的人力资源

数据产品 提取、转换、加载 (ETL) 商业智能 分析

数据准备-复杂化 语法错误 语义错误 缺失值 异常检测 再归一化 编码 降维 整合

数据准备-语法和语义错误 利用:日志! 对于文本格式,人来检查是可能的 进行语法或语义变化,或者检查数据源是否有错? 维护一个记载错误记录的文件 尽可能多地捕捉出错地方的状态 能够帮助确定数据源的错误 对于文本格式,人来检查是可能的 对于二进制格式,使用16进制编辑器 进行语法或语义变化,或者检查数据源是否有错? 涉及到其他记录和数据源的限制是十分难查的

数据准备-扩展性问题 已有的数据和需要的数据均是动态的目标 修复找到的错误会是极耗资源或不可能的 容错 数据质量是一个过程 经常会在分析数据是发现问题 修复找到的错误会是极耗资源或不可能的 容错 保留初始数据 能够将工作流的阶段回滚 允许以前工作的重用

数据准备-扩展性问题 工作流元数据管理 工作流进度估计 工作流单元重用 现在正在运行什么? 自动源捕获 对工作流进行版本编号 必须向下流进程通信 工作流单元重用 在复合时:常用工作流库 在执行时:消除工作流常见任务的冗余

数据表现 数据表现概览 图表 单变量 双变量 其他 图表的选择 设计的考虑 表格 颜色 活板印刷

数据表现-例子 图 信息图 表格 图表 信息窗 介绍 文档 视频 应用程序

数据表现 图

数据表现 图

数据表现 图

数据表现 图

数据表现 信息图

数据表现 信息图

数据表现 信息图

数据表现 信息图

数据表现 表格

数据表现 图表

数据表现 信息窗

数据表现 信息窗

数据表现 信息窗

数据表现 图像

设计的考虑 表格和图表 减少图表垃圾/表格垃圾;增加数据墨水比 认知的限制:限制一次展示的物体数量 颜色 颜色模式 对比、强调 与公司一致 6大格式塔原则:接近、相似、圈围、封闭、连续、连接(proximity, similarity, enclosure, closure, continuity, connection)

数据产品 不要只关注“思想” 你构建了数据集 你构建了信息窗 你构建了实验平台 其他你可以构建的事 搜索 广告定位 垃圾检测 内容推荐

Facebook大数据案例 潜在的朋友

提纲 推荐谁? 静态,离线预测 动态,在线重排序 性能/热身

你可能认识的人 前1~2个推荐会直接显示在Faceboook的主页上 查看所有链接会使用户看到更多的推荐 很多的好友都是直接在主页而不是“查看所有”页面被添加的 ‘Xing’某个用户把某人永远地从列表里删除 在未来的推荐中取消掉 占了Facebook中朋友中的很大一部分内容

帮助用户在FB上找到好友 推荐已经在很多应用中得到了证明 和他们一样,我们可以通过作出优秀的推荐来增加我们对用户的价值 Amazon、NetFlix等都有复杂的系统 和他们一样,我们可以通过作出优秀的推荐来增加我们对用户的价值 有更多好友的用户更频繁地使用网站,从中也得到更多 不像那些系统(协同过滤)我们必须要考虑社交背景

好友统计 大约每天有两亿的页面互访 新用户(注册帐号不超过两周)每天要连接4千万 26%直接来自于PYMK的贡献(点击PYMK添加链接) 另外14%是间接引起的 新用户(注册帐号不超过两周)每天要连接4千万 28%直接通过PYMK,总共为42% 没有“你可能认识的人”(PYMK)时很多人可能都无法被他人所发现 被从PYMK上移除的新用户在6周以后会少27%的好友

如何推荐 大部分的友谊来自于朋友的朋友(Friend of Friend, F-F) 从实际的角度来看,做比F-F更深入的工作是不可能的了 以前的工作表明FoF(2跳)的友谊比多余3跳的友谊要多五倍以上 FB上92%的新朋友关系 从实际的角度来看,做比F-F更深入的工作是不可能的了 一般用户平均有超过130个好友 130×130 = 17K FoFs 130^2 = 2.2M FoFoFs 特殊的用户会有大约5000个好友

推荐朋友的朋友 问题陈述: 挑战: 给定一个源用户,找到最佳的朋友的朋友推荐给他 一个典型的用户会有成百上千的FoFs(平均为40K,有一部分人会达到800K!) 哪些特性可以帮助我们从中进行选择 我们如何结合网络和人口特性

共同好友 共同好友数目是一个很好的指标 其他社交网络特性也很有帮助: 我们可以结合网络特性: 两个有10个共同好友的人成为好友的概率是仅有1个共同好友的12倍 其他社交网络特性也很有帮助: 比如,如果你的好友刚刚添加了一个新的还有,这也是一个很好的推荐 我们可以结合网络特性: 𝛿 𝑢,𝑣 给出了边创建以来的时间

系统概览 系统检测所有的FoFs 存储评分并且使用简便易得的数据来预测实时的CTRs 结果被反馈到系统并保留 产生前100位候选人列表 候选人被重新排序并且在每次访问时展示 结果被反馈到系统并保留 实时模型依赖于输出分数,并进行在线训练来保证CTR预测的准确性

进行静态预测 使用传统机器学习 对一个用户u,考虑所有的FoFs w1,…,wk 对每一对(u, wj) 生成一系列特性 共同好友,很久以前的共同好友,新的共同好友等 也结合u和wj各自的特性 年龄、性别、国家、总的朋友、在FB的时间等 我们使用袋装决策树(许多决策树的平均) 训练集来自于以前的PYMK 只训练 “first impression”或主页

好友的好友特性 两类特性 用于预测的最重要特性 带权的共同好友(MFs) 个人特点 时间流逝的共同好友 源用户的国籍和FB年龄 好友数目 实际的MFs、带时间权重的MFs、有向的MFs、带强度权的MFs、推迟的MFs 个人特点 年龄、国家、FB年龄、性别、朋友数 由于用户平均有40K个FoFs,这些必须在每台机器上进行冗余备份而不是共享 用于预测的最重要特性 时间流逝的共同好友 源用户的国籍和FB年龄 好友数目

特性选择 首要特性 1.时间权重,有向共同好友 2.国家(u) 3.从u到v的带权重边 某些国家的用户相比于其他国家的用户更倾向于使用某些特性 3.从u到v的带权重边 来自于信息订阅的权重粗略地暗示了联系的强度 4和5是其他的共同好友权重,其他重要特性是U的度,V的度以及U的年龄

巨大的代价 用户平均有40K个FoFs 共有超过500M的用户 40K × 500M = 20 T 多台拥有72G内存的机器(40台) 每台机器都存了社交图的一部分在内存中(对单台机器来说太大了) 即便如此,我们至少要在2天中才能算出新的推荐 为了保证对新用户进行最佳的推荐,我们会为他们进行更多的计算

推荐生成 社交图被40台机器所共享 请求会直接送到有用户好友列表的机器 结果被汇总并排序 包括边上的注释:创建时间、方向,权重 这台机器分割好友列表并且向其他机器请求FoFs 结果被汇总并排序 前100位被返回

推荐生成 使用了4台机器的简单例子 4号用户请求PYMK 向其他机器请求FoFs(本地的机器也一样被请求) 每个FoF的特征向量被聚集 4号用户和5,6,7,13,26,31,121等用户是好友 向其他机器请求FoFs(本地的机器也一样被请求) 请求包括去权重(如时间) 每个FoF的特征向量被聚集 14:2, 18, 81 17:2, 53, 12 123: 2, 0, 0

提高效率和内存利用率 为每个用户都运行40K个FOFs的决策树评价是不可能 的 不想使用网络来获得年龄、性别等信息 使用启发式方法来缩小范围 通过共同好友特性建立logistic模型来选择出前1K 使用线性时间排N算法来找到截止(不是nlogn排序) 仅在前1K上运行完全决策树算法 不想使用网络来获得年龄、性别等信息 从前1000用户中选择出前100 只有那些人才能被展示 为了保证多样性,会暂时不推荐已经向用户推荐了4次以上的好友

将可获得的信息和评分相结合并通过Logistics模型来进行重排 每次都展示最好的推荐 为了优化推荐,我们在每次推荐以后都再次重排 决策模型只能每两天运行一次 他们为每个用户对(u, wi)输出一个评分 不能为每次推荐进行过多的运算,但是可以适量运算 简单特性在每次推荐的时候都存在 (u, wi)的分数,对(u, wi)的推荐次数, U的朋友数,wi的朋友数 将可获得的信息和评分相结合并通过Logistics模型来进行重排

通过Logistics回归进行重排 简单logistics回归模型进行CTRs预测的表现良好 从两方面来提高质量 对某个推荐给定特性 F1、F2、 F3 预测CTR = logistics(C0+C1*F1+C2*F2+…) 从两方面来提高质量 不要不断重复某个推荐,展示过往的最佳推荐 如果用户从来都不用PYMK,就停止推荐

通过Logistics回归进行重排 简单logistics回归模型进行CTRs预测的表现良好 从两方面来提高质量 对某个推荐给定特性 F1、F2、 F3 预测CTR = logistics(C0+C1*F1+C2*F2+…) 从两方面来提高质量 不要不断重复某个推荐,展示过往的最佳推荐 如果用户从来都不用PYMK,就停止推荐 实现简单,很多的软件可以被用来学习参数 使用用户历史数据来个个性化推荐能获得巨大的效果提升

机器学习挑战 对过去数据的良好预测并不总是有价值 如果是从头开始训练,需要一定量的迭代以达到收敛 在该数据上训练的模型,部署了以后 新模型过高评价了那些没在之前 数据中出现的推荐; 点击率骤减 对过去数据的良好预测并不总是有价值 可能会给予没有出现在以前数据集里的推荐很高的评分 如果是从头开始训练,需要一定量的迭代以达到收敛 目前使用在线学习系统来进行CTR预测

组合系统

上下文PMYK 简单扩展以后使得推荐可以根据当前的上下文 之前的排序仅根据共同好友数据(在我和他们之间) 在确定了一个好友的请求之后,推荐一些该好友的朋友 但是应该是哪些人? 之前的排序仅根据共同好友数据(在我和他们之间) 使用学习好的模型(和其他PYMK基于相同的特性),增加了40%的好友添加

性能 两个性能指标 总能通过牺牲其他指标来提高某个指标 离线模型的首次发送和早期的CTR预测 建立的还有关系 CTR 从那时开始的一些不足 总的来说,增加了60% 同时,有下调趋势的CTR预测下降了1/3 因此,CTR提高了130%

要点 边注释是重要的特性 从简单的用户需求来获得巨大的成功 ~3个人带动了在FB上的~40%的交友==每个人每秒交385个朋友 图并不仅是点和边 --- 边有时间,方向和权重 从简单的用户需求来获得巨大的成功 了解人们在用什么、人们不在意什么、展示他们喜欢的内容 ~3个人带动了在FB上的~40%的交友==每个人每秒交385个朋友