CCF-ADL 58 大媒体与大数据分析 北京·清华大学 2015.7.20-2015.7.22
大媒体与大数据分析—主要内容 图像视频大数据分析与搜索 高文,北京大学 从媒体大数据到知识发现 芮勇,微软亚洲研究院 图像视频大数据分析与搜索 高文,北京大学 从媒体大数据到知识发现 芮勇,微软亚洲研究院 大数据挖掘的机遇与挑战 俞士纶,美国伊利诺伊大学芝加哥分校 容错数据挖掘 吴信东,美国佛蒙特大学 网络数据计算与社会媒体分析 程学旗,中国科学院计算所 异构信息网络构建与分析 韩家炜,美国伊利诺伊大学香槟分校 大数据问题求解:算法与系统 王宏志,哈尔滨工业大学
从媒体大数据到知识发现 文本领域:从文本到知识,“读书百遍,其义自见” 图像领域:图像主体辨识、图像分类 名词分块->实体链接->共指消解->事实抽取->迭代进行… 图像领域:图像主体辨识、图像分类 视频领域:发现精彩部分、识别视频中的动作 框架分为3层。最底层为Source层,包括无结构数据,半结构数据,结构化数据以及人。Source层通过Mining操作(包括本体构建,实体抽取,事实/关联抽取,权重抽取,Alt Exp挖掘,动作抽取)形成KB层(Knowledge Base)。而KB层则向上提供Serving(实体链接,实体Ranking,上下文发觉,意图发觉,事件发觉,语义解析,推理等)给Apps层。 文本的另一个问题是查询理解:Lecture中主要指出了查询分段(segment,这一过程会有上下文的问题),然后给分段的打上Label,再基于KB给出推荐的Entity。 图像的实例主要提出了两种思路结合的方法(自底向上+自顶向下)。分别存在着两种挑战:重复发现,开放词汇的图片注解。图片消歧,图片去噪。 视频实例主要提出了HighLight发觉与动作识别(基于深度学习)
大数据挖掘的机遇与挑战 五个V:Volume, Velocity, Variety, Veracity,Value Velocity 机遇与挑战:存储,索引,检索,备份&恢复,挖掘&分析, 隐私保护…… Velocity 基于数据交互流的社团发现 利用电子邮件、短信、电话等信息发现经常联系的群体 在线部分:Top-K neighbor list,Top-k candidate list 离线部分:寻找常见的通讯模式 Variety 传统特征向量的方法不再适用 对于人脑的建模(使用不确定图数据) 异构网络信息的挖掘(利用链路信息等等) Veracity 对于商品评论的真实性判定 不使用评论自身的信息,而使用群体智慧 A reviewer is trusty if he wrote many honest reviews a review is honest if many trusty reviewers agree with it about the target store
异构信息网络构建与分析 Data->Network->Knowledge (D2N2K) Why Heterogeneous Information Networks? Homogeneous networks: Single object type and single link type Heterogeneous networks: Multiple object and link types Heterogeneous networks carry richer information, imply more structures, leading to richer discovery. Construction of Heterogeneous Networks from Text Data Philosophy: Not extensive “labeling” but exploring the power of massive text corpora! Mining phrases from massive text data [ToPMine, SegPhrase+] Entity recognition and typing Relationship extraction Construction of heterogeneous information networks Mining Heterogeneous Information Networks Meta-Path and Similarity Search RankClus and NetClus And many, many more…
大数据问题求解:算法与系统 求解大数据问题的难点 求解大数据问题的算法 访问全部数据时间过长:读取部分数据 (时间亚线性算法) 访问全部数据时间过长:读取部分数据 (时间亚线性算法) 数据难于放入内存计算:将数据存储到磁盘上、仅基于少量数 据进行计算(外存算法、空间亚线性算法) 单个计算机难以保存全部数据,但是计算需要整体数据:并行 处理(并行算法) 计算机计算能力不足或知识不足:人来帮忙(众包算法) 求解大数据问题的算法 水库抽样:均匀地从数据流中抽K个数据(亚线性空间算法) 先取前K个,之后以K/i的概率用第i个数据随机替换结果中某一个 输入平面图的距离矩阵(满足三角不等式),求两点间最大距 离,要求O(n) (亚线性时间算法) 随便取一行求最大值,不会比最优解的1/2差 判断一个大图的连通性(半外存算法) 存储所有顶点,标不同的序号;每读入一条边,将相连的顶点编 号变为相同 计算子图同构(并行算法) 查询图分解成小图,之后对小图进行匹配,再进行连接
Thank you.