CCF-ADL 58 大媒体与大数据分析 北京·清华大学 2015.7.20-2015.7.22.

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
护理学基础 第七章 医院与住院环境.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
福榮街官立小學 我家孩子上小一.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
小數怕長計, 高糖飲品要節制 瑪麗醫院營養師 張桂嫦.
制冷和空调设备运用与维修专业 全日制2+1中等职业技术专业.
会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析 组员:2006级工商企业管理专业 金国芳 叶乐慧 魏观红 徐挺挺 虞琴琴.
第六章 人体生命活动的调节 人体对外界环境的感知.
芹菜 英语051班 9号 黄秋迎 概论:芹菜是常用蔬菜之一,既可热炒,又能凉拌,深受人们喜爱。近年来诸多研究表明,这是一种具有很好药用价值的植物。 别名:旱芹、样芹菜、药芹、香芹、蒲芹 。 芹菜属于花,芽及茎类。
2012年 学生党支部书记工作交流 大连理工大学 建工学部 孟秀英
北京市职业技能鉴定管理中心试题管理科.
第九章 会计设置及机构.
2014吉林市卫生局事业单位招聘153名工作人员公告解读
各類所得扣繳法令 與申報實務 財政部北區國稅局桃園分局 103年9月25日
初級游泳教學.
爱国卫生工作的持续发展 区爱卫办 俞贞龙.
第八章 数学活动 方程组图象解法和实际应用
本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响. 本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响.
散文鉴赏方法谈.
比亚迪集成创新模式探究 深圳大学2010届本科毕业论文答辩 姓名:卓华毅 专业:工商管理 学号: 指导老师:刘莉
如何撰写青年基金申请书 报 告 人: 吴 金 随.
点击输 入标题 点击输入说明性文字.
國際志工海外僑校服務 越南 國立臺中教育大學 2010年國際志工團隊.
3/5/2017 十二经脉 八、足少阴肾经.
痰 饮.
學分抵免原則及 學分抵免線上操作說明會.
教 学 查 房 黄宗海 南方医科大学第二临床医学院 外科学教研室.
评 建 工 作 安 排.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
首都体育学院 武术与表演学院 张长念 太极拳技击运用之擒拿 首都体育学院 武术与表演学院 张长念
现行英语中考考试内容与形式的利与弊 黑龙江省教育学院 于 钢 2016, 07,黄山.
第5讲:比较安全学的创建 吴 超 教授 (O)
2011计算机类教研活动 陈国久.
彰化縣西勢國小備課工作坊 新生入學的班級經營 主講:黃盈禎
重庆市西永组团K标准分区基本情况介绍.
西貢區歷史文化 清水灣 鍾礎營,楊柳鈞,林顥霖, 譚咏欣,陳昭龍.
所得稅扣繳法令與實務 財政部北區國稅局桃園分局 102年12月19日 1 1.
角 色 造 型 第四章 欧式卡通造型 主讲:李娜.
走进校园流行 高二15班政治组 指导老师:曾森治老师.
医院文化建设 广东省中医院 2011年3月26日.番禺.
案例:海底捞模式 ——把服务做到极致.
医疗法律法规培训 连云港市东辛农场医院 周卫平 二0一四年十二月.
史泰博出货检验员面试中·········
09英本2班 罗芬.
个人所得税 扣缴申报表填报讲解.
主講人:孫台義 教授 哈薩克大學國際關係學院 客座教授
土地增值税清算业务培训 主讲人:吴金娟 怀集地税.
实训报告 财务管理二班 第三小组 组长:董文芳 执笔人:王瑾 组员:汲伦 庞宁宁 姜美.
义务教育英语(7—9年级) 教学指导意见.
Http://
資源中心辦理補救教學之推動重點 服務單位:國立新竹教育大學 演 講 者:林志成教授.
國立中山大學30週年校慶籌備委員會 中山大學30週年校慶籌備會 第二次工作會議 03/29/2010.
2019/2/22 批销商品组套培训指导
人工智慧&Scratch 林俞均 侯藹玲 陳芸儀 鄭涵庭
Presentation transcript:

CCF-ADL 58 大媒体与大数据分析 北京·清华大学 2015.7.20-2015.7.22

大媒体与大数据分析—主要内容 图像视频大数据分析与搜索 高文,北京大学 从媒体大数据到知识发现 芮勇,微软亚洲研究院 图像视频大数据分析与搜索 高文,北京大学 从媒体大数据到知识发现 芮勇,微软亚洲研究院 大数据挖掘的机遇与挑战 俞士纶,美国伊利诺伊大学芝加哥分校 容错数据挖掘 吴信东,美国佛蒙特大学 网络数据计算与社会媒体分析 程学旗,中国科学院计算所 异构信息网络构建与分析 韩家炜,美国伊利诺伊大学香槟分校 大数据问题求解:算法与系统 王宏志,哈尔滨工业大学

从媒体大数据到知识发现 文本领域:从文本到知识,“读书百遍,其义自见” 图像领域:图像主体辨识、图像分类 名词分块->实体链接->共指消解->事实抽取->迭代进行… 图像领域:图像主体辨识、图像分类 视频领域:发现精彩部分、识别视频中的动作 框架分为3层。最底层为Source层,包括无结构数据,半结构数据,结构化数据以及人。Source层通过Mining操作(包括本体构建,实体抽取,事实/关联抽取,权重抽取,Alt Exp挖掘,动作抽取)形成KB层(Knowledge Base)。而KB层则向上提供Serving(实体链接,实体Ranking,上下文发觉,意图发觉,事件发觉,语义解析,推理等)给Apps层。 文本的另一个问题是查询理解:Lecture中主要指出了查询分段(segment,这一过程会有上下文的问题),然后给分段的打上Label,再基于KB给出推荐的Entity。 图像的实例主要提出了两种思路结合的方法(自底向上+自顶向下)。分别存在着两种挑战:重复发现,开放词汇的图片注解。图片消歧,图片去噪。 视频实例主要提出了HighLight发觉与动作识别(基于深度学习)

大数据挖掘的机遇与挑战 五个V:Volume, Velocity, Variety, Veracity,Value Velocity 机遇与挑战:存储,索引,检索,备份&恢复,挖掘&分析, 隐私保护…… Velocity 基于数据交互流的社团发现 利用电子邮件、短信、电话等信息发现经常联系的群体 在线部分:Top-K neighbor list,Top-k candidate list 离线部分:寻找常见的通讯模式 Variety 传统特征向量的方法不再适用 对于人脑的建模(使用不确定图数据) 异构网络信息的挖掘(利用链路信息等等) Veracity 对于商品评论的真实性判定 不使用评论自身的信息,而使用群体智慧 A reviewer is trusty if he wrote many honest reviews a review is honest if many trusty reviewers agree with it about the target store

异构信息网络构建与分析 Data->Network->Knowledge (D2N2K) Why Heterogeneous Information Networks? Homogeneous networks: Single object type and single link type Heterogeneous networks: Multiple object and link types Heterogeneous networks carry richer information, imply more structures, leading to richer discovery. Construction of Heterogeneous Networks from Text Data Philosophy: Not extensive “labeling” but exploring the power of massive text corpora! Mining phrases from massive text data [ToPMine, SegPhrase+] Entity recognition and typing Relationship extraction Construction of heterogeneous information networks Mining Heterogeneous Information Networks Meta-Path and Similarity Search RankClus and NetClus And many, many more…

大数据问题求解:算法与系统 求解大数据问题的难点 求解大数据问题的算法 访问全部数据时间过长:读取部分数据 (时间亚线性算法) 访问全部数据时间过长:读取部分数据 (时间亚线性算法) 数据难于放入内存计算:将数据存储到磁盘上、仅基于少量数 据进行计算(外存算法、空间亚线性算法) 单个计算机难以保存全部数据,但是计算需要整体数据:并行 处理(并行算法) 计算机计算能力不足或知识不足:人来帮忙(众包算法) 求解大数据问题的算法 水库抽样:均匀地从数据流中抽K个数据(亚线性空间算法) 先取前K个,之后以K/i的概率用第i个数据随机替换结果中某一个 输入平面图的距离矩阵(满足三角不等式),求两点间最大距 离,要求O(n) (亚线性时间算法) 随便取一行求最大值,不会比最优解的1/2差 判断一个大图的连通性(半外存算法) 存储所有顶点,标不同的序号;每读入一条边,将相连的顶点编 号变为相同 计算子图同构(并行算法) 查询图分解成小图,之后对小图进行匹配,再进行连接

Thank you.