南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期

Slides:



Advertisements
Similar presentations
DOC 推廣活動 月餅星光大道. 中秋  農曆八月十五日,是中國傳統的中秋節。 古人將一年分成春夏秋冬四季,而一季又 分為孟、仲、季三月,八月是仲秋之月, 而十五又是這個月中間的一天,正處在秋 季的正中,所以把八月十五稱為「中秋」 或「仲秋」。  中秋夜,月亮最圓,月色最美,因此人們 把月圓看成是團圓的象徵,同時也稱八月.
Advertisements

管理科学与工程类专业 职业规划问题探讨 报告人 : 李增兵 67D103 , FTP : // 管理科学与工程学院.
中 五 級中 五 級 戰後國共關係 與 中華人民共和國成立 中國歷史科 1 )認識國共政治協商的概況 2 )認識國共內戰的概略經過及結果 3 )中華人民共和國成立.
不吃早餐的影響: 體內的葡萄糖無法 足夠供應給大腦與 肌肉,會感覺疲勞, 注意力無法集中。。 營養的早餐:乳品 + 全榖類食品 + 蛋白質 + 水果 早餐你吃了嗎?
重庆维普资讯有限公司 2013 年 10 月 维普资讯新产品推荐报告. 现状:信息爆炸,图书馆疲于馆藏资源管理,用户 需要大量时间对搜索结果进行归纳与分析; 发展:更多高附加值信息诉求逐渐产生; 图书馆从信息管理职能向知识管理职能转化;
北京师范大学生命科学学院 北京师范大学生命科学学院 余跃强 章腾勋 王航 余跃强 章腾勋 王航 2 目 录目 录目 录目 录  前言 前言  概述 概述  形态和生活史 形态和生活史  寄生适应特征 寄生适应特征  致病机制与症状 致病机制与症状  诊断 诊断  流行情况 流行情况.
2017/2/ /2/25 1 公職考試與證照考試簡介 考選部 1.
第5讲 索引构建 Index construction 授课人:高曙明
人文地理專題研究 王志明.
信息技术组 因特网信息的查找.
中华字库的云输入法 王勇 基础软件国家工程研究中心
2014年爱婴医院复核方案解读 省卫生计生委妇幼处 邱灵.
导言 第四 单元 凡尔赛—华盛顿体系与第二次世界大战
电子工业出版社《云计算(第二版)》配套课件
社團經費申請 及核銷相關規定 製作:世新大學會計室.
会计实验.
第八章 大学生创业财务专题 熊凌云
高一年级过渡性学习 活动汇报 高一年级组 教科研室 汉滨高中.
“卓越工程师”培养的质量保障体系构建探索
土地出让转让的政策与实务 岳晓武 国土资源部利用司.
整合、挖掘、启迪——智立方 维普资讯新产品推荐报告 重庆维普资讯有限公司 2013年10月.
受過蒙特梭利啟蒙教育而成為成功人物的國際名人
老師:鍾郁芬 老師 指導 組長:陳欣怡 組員:曾郁雯 倪敏富 王宣化 簡宏倫 黃郁涵
广州医学院图书馆 医学文献检索教研室 课堂讲授: 课件制作:邓小茹
题目回顾 泉水在地下蓄积,一旦有机会,它便骄傲地涌出地面,成为众人瞩目的喷泉,继而汇成溪流,奔向远方。但人们对地下的泉水鲜有关注,其实,正是因为有地下那些默默不语的泉水的不断聚集,才有地上那一股股清泉的不停喷涌。 请根据你对材料的理解和感悟,自选一个角度,写一篇不少于800字的文章,文体自定,标题自拟。要求:立意明确,不要套作,不得抄袭。
Ch.8. 基于MapReduce的图算法 MapReduce海量数据并行处理
校內科學園遊會 製作說明會 教務處設備組
第八章 了解法律制度 自觉遵守法律.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
广 东 技 术 师 范 学 院 美术学院 装潢专业 2012级(3)班 郑可珊
第十九章 散文 教学要求: 了解散文的含义、分类、特点,学习写作抒情散文。 重点: 散文的特点,散文的写作。 难点: 散文的写作训练。
大肚宮廟巡禮.
以Word製作自傳.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
模块4 授导型教学的设计 陈冬.
农机化项目管理培训会 柳州市农机局 郑崇宁
一二·九运动                                                                    0712班.
0806班 全卷100分 语言基础与阅读60分 作文40分 赵宇成 高 洁 李欣然 龚妙岚 唐紫晔 石峰源 王俊然 游景稀 雷力行 卢倩雯
中小学教育科研课题的选择 王典伟.
基于hadoop的数据仓库技术.
出口农产品风险管理 企业分类及监督管理表格
2017/4/7 國立臺東大學 國家考試講座- 如何準備國家考試 2017/4/7 1 1.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
● 四 (2)班 家 长 网络交 流 会 ● 快乐成长 与您 共享 家庭 学校 社会.
学科科研工作与科研 奖励政策解读讲座 朱文斌 博士 教授 2015年9月8日.
第9章 金融监管.
模块七 信息获取与发布 第8章 计算机网络信息的获取与发布.
首都师范大学.
基于书签的校园搜索引擎 Web 2.0时代的网络收藏夹.
分布式系统中的关键概念及Hadoop的起源、架构、搭建
云计算之分布式计算.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
CHAPTER 6 認識MapReduce.
關心今天的老人, 就是關心明天的自己 作者:周儀.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
软件工程基础 云计算概论 刘 驰.
運動競賽制度 授課教師:鄭俊傑副教授.
大綱 *專題演講介紹 *大陸醫療的改革與發展 *海報發表文章分享 2012海峽兩岸醫院院長論壇行後報告 ‧台北
《郑伯克段于鄢》 黎兰老师制作.
Word –圖片處理 資訊教育.
Chapter8 搜尋引擎之使用 網路應用入門(一) Chapter8 搜尋引擎之使用
目 录: 一、网络存储系统的登录 二、网络存储系统的基本使用 三、学生提交作业功能的使用 四、教师开放资源功能的使用.
Cloud Computing Google云计算原理.
仲裁处理细则及常见问题解析.
嘉義縣立溪口國民中學 辦理96年度推動自由軟體學校資訊融入教學
校內科學園遊會 製作說明會 教務處設備組
Presentation transcript:

南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期 MapReduce海量数据并行处理 鸣谢:本课程得到Google公司(北京) 中国大学合作部精品课程计划资助 南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期

课程内容 Ch.1 并行计算技术简介 Ch.2 MapReduce简介 Ch.3 Google MapReduce的基本构架 简要介绍并行计算技术的概况,基本分类,主要技术问题,MPI并行程序设计,大规模并行数据处理技术 Ch.2 MapReduce简介 简要介绍MapReduce技术的由来,基本构思,编程模型,主要设计思想和技术特征,基本应用 Ch.3 Google MapReduce的基本构架 介绍Google MapReduce并行计算框架的基本结构、工作原理,Google分布式文件系统GFS的基本构架与工作原理,Google结构化数据管理系统BigTable的基本结构与工作原理 Ch.4 Hadoop 的基本构架 介绍开源MapReduce系统Hadoop 的基本结构、工作原理,Hadoop分布式文件系统HDFS的基本构架与工作原理,Hadoop数据管理系统的基本结构与工作原理

课程内容 Ch.5 Hadoop系统安装运行与程序开发 介绍单机和集群Hadoop系统安装方法和步骤,以及程序开发环境与开发过程 实验2:莎士比亚文集词频统计(Word Count)实验 Ch.6 MapReduce算法设计 介绍排序算法、文档倒排索引、文档共现算法、专利文献数据分析应用 实验3:莎士比亚文集倒排序实验 Ch.7 高级MapReduce编程技术 介绍复杂I/O数据表示、、用复合键值对完成特殊处理、程序员定制的I/O格式、Partitioner、Combiner,基于迭代的MapReduce求解方法、数据相关MapReduce任务计算、链式MapReduce计算、多数据源连接、访问关系数据库等高级技术 Ch5. 参见清华Hadoop下的MapReduce编程,P82;马里兰大学教程Section2:Hadoop Nuts& Bolts Ch7. 参见Data-Intensive Text Processing with MapReduce一书第3章

课程内容 Ch.8 复杂问题的MapReduce编程 介绍图算法(如宽度优先搜索),PageRank(Web网页排序) 实验4:Wikipedia网页PageRank实验 Ch.9 聚类算法、Web文档全文检索技术 Ch.10 云计算技术 介绍Google、Amazon、Microsoft、IBM等云计算技术与平台 课程设计(研究生) 1.Netflix电影与用户聚类分析 2.或者自选具有一定难度和工作量的题目,鼓励结合导师的研究工作自选课程设计题目 Ch5. 参见清华Hadoop下的MapReduce编程,P82;马里兰大学教程Section2:Hadoop Nuts& Bolts Ch7. 参见Data-Intensive Text Processing with MapReduce一书第3章

课时安排 2011年春季学期 2月21日-5月31日:课堂讲授,课程实验,期末考试 每周2课时,共计14次课堂讲授(28课时) 6月1日-7月30日: 研究生课程设计 考核方法 课程实验 本科生:实验,占30%;研究生:实验,占25% 期末考试 笔试,本科生:占70%;研究生:50% 课程设计 研究生:自主选题或结合导师研究课题选题,25% Ch5. 参见清华Hadoop下的MapReduce编程,P82;马里兰大学教程Section2:Hadoop Nuts& Bolts Ch7. 参见Data-Intensive Text Processing with MapReduce一书第3章

参考书目与文献 参考书目: 阅读文献: 1.《基于集群的大规模海量数据处理》课程,清华大学,2009 2.《Hadoop in Action》,Chuck Lam,2010 ,Manning Publications 3.《Data-Intensive Text Processing with MapReduce》,Jimmy Lin and Chris Dyer,2010,University of Maryland, College Park 4.《云计算》,刘鹏著,2010,电子工业出版社 5.《云计算的关键技术与应用实例》,王鹏著,2010,人民邮电出版社 阅读文献: 1. Jeffrey Dean and Sanjay Ghemawat,MapReduce: Simplied Data Processing on Large Clusters,OSDI ’04 2. Sanjay Ghemawat, et.al, The Google File System, SOSP’03 3. Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine 4. Andrew McCallumzy, et.al, Efficient Clustering of HighDimensional Data Sets with Application to Reference Matching 5. …… Ch5. 参见清华Hadoop下的MapReduce编程,P82;马里兰大学教程Section2:Hadoop Nuts& Bolts Ch7. 参见Data-Intensive Text Processing with MapReduce一书第3章

课程设计(研究生) 开题报告 目的:为了评估课程设计选题的内容和难度是否达到一定要求,需要提交 开题报告 主要内容 小组信息(人员,学号,联系信息) 课题分工:各个成员初步的课题分工计划 研究题目 研究问题背景 主要技术难点 主要解决方法和算法设计思路 提交时间:6月15日 开题报告文件命名规则:开题报告-组号-组长姓名.doc 课题报告提交至:FTP:114.212.209.146 用户名:hadoop 口令:hadoop 审阅意见返回:6月22日

课程设计(研究生) 最终课题完成与提交 课程设计结果提交(以下内容打包提交) 课题报告文件命名规则:课程设计报告-组号-组长姓名.doc 课程设计报告,内容包括 小组信息(人员,学号,联系信息) 课题小组分工:需要明确说明各成员在整个课题中分工负责完成的内容 课程设计题目 摘要 研究问题背景 主要技术难点 主要解决方法和算法设计思想 详细设计说明,包括详细算法设计、程序框架、功能模块、主要类的设计说明 程序运行和实验结果说明和分析 总结:特点总结,功能、性能、扩展性等方面存在的不足和可能的改进之处 参考文献 源程序 执行程序 运行结果文件 课题报告文件命名规则:课程设计报告-组号-组长姓名.doc 课题报告提交至:FTP:114.212.209.146, 用户名:hadoop 口令:hadoop 提交截止时间:7月22日前完成并提交报告