Presentation is loading. Please wait.

Presentation is loading. Please wait.

大数据和大数据时代 可能对我们提出的要求 孙茂松 清华大学计算机科学与技术系 第15届全国高校计算机 院长/系主任论坛

Similar presentations

Presentation on theme: "大数据和大数据时代 可能对我们提出的要求 孙茂松 清华大学计算机科学与技术系 第15届全国高校计算机 院长/系主任论坛"— Presentation transcript:

1 大数据和大数据时代 可能对我们提出的要求 孙茂松 清华大学计算机科学与技术系 第15届全国高校计算机 院长/系主任论坛

2 MLN验证式推理(结合三国历史) IDC数据显示,2011年全球新增数据量达1.8ZB(或1.8万亿GB),这相当于中国每个人每分钟发送3条微博且连续6,217年不间断。

3 一、大数据:教学

4 课程体系 大数据的存取与管理 => 云计算、并行计算… 大数据的分析 => 机器学习、大数据挖掘… 当单机成为计算器……
大数据的存取与管理 => 云计算、并行计算… 大数据的分析 => 机器学习、大数据挖掘… 当单机成为计算器…… 课组建设 -- 市场最需要的人才 -- “入云龙” -- 巧克力与诺贝尔奖 -- SIGKDD2012: Summer School of Mining the Big Data -- 是否需要进入核心课体系中?

5 清华计算机系相关教学实践 专业实践课程“分布式编程与数据处理”
-- 早在2007年,我们认识到对大数据的处理将会是学生专业能力训练的一次实质性跃升。 -- 课程主题定位为“基于大规模集群的海量数据处理技术”,并与掌握最前沿技术的谷歌公司合作。 -- 学生在课程中深入学习了Google文件系统及Google分布式编程方法MapReduce,并用于处理实际的海量数据问题,如传染病人群传播模式模拟、统计气象预报、心电图数据分析、跨论坛热门信息检索、图片搜索等。Google总部、华盛顿分部、Google中国公司的部分员工参加了最后的大实验总结会。学生的项目创意和完成情况受到好评,有很多项目被认为具有研究生水平。 -- 还举办了课程的全国著名高校研讨班,教师来自北京大学,上海交通大学,浙江大学,中山大学等24所高校,效果很好。

6 清华计算机系相关教学实践 专业方向课程“高性能计算前沿技术”
-- 随着处理器多核/众核时代的到来,并行计算将发展成为一门通用计算技术。本课程与多核/众核技术执牛耳者——Intel公司合作。 -- 举办了课程培训班, 年累计培训来自全国重点高校任课教师97人次,为多核课程的推广和质量提升创造了条件

7 二、大数据:科学研究

8 Google Translate



11 Twitter用于确定明星位置 -- JustSpotted.com与Twitter合作,获取每天超过5000万条公开tweet信息,使用自然语言技术筛选包含明星动向的tweet信息,确定明星目前所在位置。将覆盖7000位明星 -- Human-Cyber-Physical Systems: 人肉传感器

12 清华计算机系相关研究(孙茂松教授)

13 清华计算机系相关研究(孙茂松教授) “他有张小清新的脸” “他 有 张小清 新 的 脸 ”

14 清华计算机系相关研究(朱小燕教授) Original Query How to improve my English?
Similar Questions How I improve my English? How can I improve my English? How can I improve my oral English? How can I improve my English fastly? How can I improve my spoken English? Guys, how can I improve my English? 这里的Best,可以理解为最全面的 对于用户的一个问题,可以找到很多相似问题

15 清华计算机系相关研究(朱小燕教授) 百度知道,搜搜问问: 一亿多问题,每个问题平均3.4个答案。 Answer 1
Firstly read, read, read. It really helps a lot. English classes are okay too but set goals, like everyday read a chapter (or less) of a book and any words you don't understand, look them up. Practice speaking and thinking in English, at first it will be difficult and sound grammatical incorrect but you'll get the hang of it soon. Also tapes and books on English will help a great deal. Answer 2 The best way to improve your language skills is total immersion.  Find people who speak English and speak with them only in English.  You may find this difficult at first, but this will be the best method for learning.  It seems your writing skills are ok, so most likely you just need to speak the language.  Also I've known people who've learned English purely through movies. Final Answer Firstly read, read, read. It really helps a lot. English classes are okay too but set goals, like everyday read a chapter (or less) of a book and any words you don't understand, look them up. Practice speaking and thinking in English, at first it will be difficult and sound grammatical incorrect but you'll get the hang of it soon. Also tapes and books on English will help a great deal. Answer 3 Go to more public places (not a crack house lol) some where nice where u should be xcepted Answer 4 Just try reading good English books or novels. When ur reading them read them loudly. also read the grammar books. And then you can make up small stories and recite them in front of some friends. That will increase your knowledge about the language and will also make you fluent in it. Or you can try this... Good luck ! Answer 5 Sorry dear theres no better option than reading books to improves ones English. Anyways you can read newspapers,if you don't like story books. Find out what you can read like comics,suspense,humor etc. Speak to yourself in English and try to answer questions to yourself. Watch good English movies. Answer 6 Take a speech class. It will help you speak in public and also works on grammar and proper annunciation. I think you would get alot more out os a speech class. Check it out. 相似问题对应着很多答案,这些答案可能都是相关、相似的,有较多的重复和近似说法。 如何找到最全面的答案,是我们提出的方法的应用之一。 这个例子有8个答案,红色的是被选出来,返回用户的。 Answer 7 Try watching television -- that will help you begin to understand spoken English.  Then try talking to people in your everyday life -- waiters/waitresses, bus drivers, store clerks, anyone -- most will try to be helpful. Answer 8 Start talking on the phone with someone.

16 清华计算机系相关研究(朱小燕教授) Original Query How to listen online musics?
Similar Questions How can I listen to music online? How can I listen music online? MP3 musics? 另外一类问题: 同样有很多问题

17 清华计算机系相关研究(朱小燕教授) Answer 1: Windows media player when you have that go to guide. Answer 2:, Answer 3: Either yahoo music or  I guess those two are safe... but it all depends on ur connection speed... You‘ll freak if u haf a slow it connection...well...Good luck! Answer 4: Check out the website for your fav radio station. Most radio stations now allow people to listen online Answer 5: Well,  definitely work for u, its the no but thr are also a couple of other sites that will help u like  Answer 6: Go to  They have a vast collection of songs in various indian languages as well as English. The directions are easy to follow and the reception is clear. Answer 7: this one‘s the best to me cause it has every genre of music you can think of. Don’t sign up for the vip cause it isn‘t free. Answer 8: Try napster Answer 9: Yahoo launchcast Answer 10: I usually go to and type in the name on artist search and I find them Answer 11: Download winamp from and start it , in option there is media library goto shoutcast radio choose station genre and listen online music. Answer 12: MP3s: free and legal. Answer 13: There is no such thing as free songs to download legally! Answer 14: Most .mp3s will be quite large in size. The better the quality, the longer the song will result in a large file size. Most songs/.mp3s (that I have) are between 1-5 MB, which will take quite a while to download on dial-up. Answer 1: Windows media player when you have that go to guide. Answer 2:, Answer 3: Either yahoo music or  I guess those two are safe... but it all depends on ur connection speed... You‘ll freak if u haf a slow it connection...well...Good luck! Answer 4: Check out the website for your fav radio station. Most radio stations now allow people to listen online Answer 5: Well,  definitely work for u, its the no but thr are also a couple of other sites that will help u like  Answer 6: Go to  They have a vast collection of songs in various indian languages as well as English. The directions are easy to follow and the reception is clear. Answer 7: this one‘s the best to me cause it has every genre of music you can think of. Don’t sign up for the vip cause it isn‘t free. Answer 8: Try napster Answer 9: Yahoo launchcast Answer 10: I usually go to and type in the name on artist search and I find them Answer 11: Download winamp from and start it , in option there is media library goto shoutcast radio choose station genre and listen online music. Answer 12: MP3s: free and legal. Answer 13: There is no such thing as free songs to download legally! Answer 14: Most .mp3s will be quite large in size. The better the quality, the longer the song will result in a large file size. Most songs/.mp3s (that I have) are between 1-5 MB, which will take quite a while to download on dial-up. 很多答案,内容很多是不重复的,从不同的角度或者信息源,回答同一个问题。 此事,同样运用我们的算法,可以选出一批最有代表性的。 如红色表示的就是被选出来的。 这些内容综合在一起,生成一个答案,返回给用户

18 Intelligent Internet Information Acquisition
Factoid QA Complex QA Vertical Search Enterprise Search Computational Advertisement Level 5 Application Content Understanding User Understanding Sentiment Understanding Level 4 Key Field Level 3 Key Topic Question Analysis Answer Evaluation User Behavior Analysis Passage Retrieval Concept extension Semantic relatedness Semantic tagging Emotion analysis Opinion extraction Opinion summarization Sentiment classification Level 2 Key Technique User interest modeling 系统架构图: 由底层起: 基于互联网的各种资源,以及信息处理的各种技术支撑 各种关键技术模块 主要研究topic 关键研究领域 应用前景 Similarity metric Focus extraction Answer typing Question type classification Authority/Expert modeling Level 1 Resource external sources NLP Tools

19 清华计算机系相关研究(马少平教授) “清华—搜狐”搜索技术联合实验室开发 SogouT网络语料 SogouE信息检索评测语料
1.387亿网页, 超过5 Terabyte存储空间 最大规模的中文互联网语料 SogouE信息检索评测语料 包含10,000个用户查询及对应的答案 1个月时间跨度真实搜索引擎用户行为日志 约1500万个用户查询,超过3000万次用户点击

20 清华计算机系相关研究(马少平教授) 构建过程 网页文本语料库 网页文本语料库 结果 检索 抓取 查询语料库 结果池 查询语料库 标注语料库
自动 标注 生成 手工标注 标注语料库 用户查询日志 传统方式 SogouT构建方式

21 清华计算机系相关研究(马少平教授) 应用情况 发放60多份,被东京大学、NICT、新加坡国立大学、纽约大学等研究单位广泛使用。
被应用于NTCIR-9/10和CLEF2011等国际信息检索领域权威评测 相关技术应用于人民搜索公司性能评估平台 验收报告:自动标注与手工标注的差异小于5%

22 地球神经中枢系统 Central Nervous System for the Earth,Cense
惠普的哈特维尔(Peter Hartwell)今后5年将植入100万个感应器,倾听地球全身每一处脉搏 该工程的终极目标,是要在地球上安装1万亿座别针大小的感应基站。这些基站每座载有10至20个感应器,用于测量温度、光线及震动等参数,并通过无线设备将信息传输到中央控制站。 图钉或别针大小的极为灵敏的运动感应器 :灵敏度iPhone上相关设备高出千倍以上。

23 三、大数据时代的呼唤

24 大数据时代的数据缺失 可获得的大数据:来自互联网(民间) 来自中国政府部门、机构的大数据?

25 维基解密视角下的中国经济数据 电力消耗量、铁路货运量、银行贷款
“只要看这三个数据,就能较为准确地了解到经济增长的速度。所有其他数据,都是‘仅供参考’”他脸上带着微笑说道。 引自福布斯中文网

26 大数据时代的数据缺失 中国政府部门、机构的大数据对中国社会发展的巨大正能量 -- 经济、科技、文化等:催生创新型应用
如:交通( 首堵,2010年我国7万人死于车祸…) -- 透明政府、阳光政府:“阳光是最好的防腐剂” “数据权”是信息时代每一个公民都拥有的一项基本权利 -- 伯纳斯·李:你想象不出政府会找出多少个借口来拒绝开放数据。 年1月,英国政府正式上线发布,当天公布了3000多项民生数据

27 来自美国的深刻认识 托马斯.杰佛逊(美国第3任总统):信息之于民主,就如货币之于经济。
美国国会《信息自由委员会报告》(1976):(向公众)隐瞒政府实情的力量就是摧毁这个政府的力量。这种力量不能轻易地赋予,也不能轻率地使用。 黄仁宇:资本主义社会,是一种现代化的社会。它能够将整个的社会以数目字管理。 爱德华.戴明( ,美国管理学家、统计学家):我们依靠上帝。除了上帝,任何人都必须用数据来说话。

28 历史演进 1789年,美国国会《管家法》规定行政机关必须在统一出版物上公开政务信息,但对于公开的内容,行政长官有自由裁定权
1945年,美联社执行主编库帕提出:“知情权” 1946年,《联邦登记法》,公众可以向政府提出信息公开的要求,但如果危级公共利益,政府有权拒绝。 1951年,在当时的冷战格局下,美国历史上首次把军事机构的保密制度引入普通的行政部门。一时间“保密”之风在政府各个部门蔓延。美国的“知情权”,并没有明确的法律保障。 1955年,国会议员约翰·摩斯提出《信息自由法》的草案。 1965年,参议院通过《信息自由法》。约翰逊在听到这个法案后的第一反应:“摩斯想干什么?他想搞砸我这届政府吗?” 1966年7月4日,由于参众两院对于该法案的支持率都高于三分之二,无法动用否决权的总统约翰逊签署了这份法案。

29 历史演进 1976年,美国国会通过《阳光政府法》 1996年,美国国会通过《电子信息自由法》 2007年,美国国会通过《开放政府法》
2009年,美国总统奥巴马主持内阁宣誓仪式并发表讲话:“为了引领一个开放政府的新时代,面对信息,政府机关的第一反应必须是公开。这意味着我们必须坚定地公开信息,而不是等待公众查询。所有的政府机关都应该利用最新的技术推进信息公开,这种公开,应该是及时的”。签署《透明并开放的政府》。 2010年,奥巴马在联合国演讲 2010年,第一次开放政府数据国际会议 2011年,“开放政府联盟”

30 建议 大数据开放乃国家发展之所需 应进行我国数据开放状况调研 呼吁政府及所属机构开放不涉及秘密的数据,造福国家、社会和人民

31 谢谢!

Download ppt "大数据和大数据时代 可能对我们提出的要求 孙茂松 清华大学计算机科学与技术系 第15届全国高校计算机 院长/系主任论坛"

Similar presentations

Ads by Google