大数据环境下的文献分析与利用 叶艳鸣 2013·11.

Slides:



Advertisements
Similar presentations
暨IEF Live Surgery Workshop
Advertisements

复旦大学上海医学院.
机械专业网站.
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
The Graduation Thesis Defense
职称:***(博导、教授、副教授、讲师)
证券投资技术分析.
元数据更新:两次/周 空检索 356万篇学位论文 437万种图书 371万篇会议论文 7600万篇期刊 54万篇标准 746万篇专利
姓 名 出生年月 所在学科 最高学历/位 专业 毕业学校 成果内容 本人业绩 (一)教学内容
区级课题汇报 (初期) 汇报人:建平中学周宁医 2008年9月27日.
实用操作系统概念 张惠娟 副教授 1.
人工智能技术导论 廉师友编著 西安电子科技大学出版社.
学堂讲座通知 化学系 巩金龙 教授 天津大学 氢的多相催化合成与转化 报告人: 报告题目: 时 间:2016年5月18日(星期三)下午7点
中文发现系统进展与应用 叶艳鸣.
王平 教授/博士生导师 可逆储氢材料(金属氢化物、配位金属氢化物) 可控放氢材料(化学氢化物、分子晶体化合物)
公司荣誉 Enterprise Honor.
Science China:Technological Science(简称中国科学E刊)
                                                                                                                                                                
百链 1.
有机所文献利用快速指南 平台入口: 图书馆网站 文献、数据检索:
讲座题目: 社会心态研究—— 迈向发展的社会心理学 时间 2016年12月9日 地点 国学馆113教室 主讲人 郭永玉教授
超星发现 上海·杨耘地.
如何使用CiteSpace分析Derwent专利数据
Computer Graphics 计算机图形学基础 张 赐 Mail: CSDN博客地址:
中国科学技术大学 肖 明 军 《网络信息安全》 中国科学技术大学 肖 明 军
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
数 控 技 术 华中科技大学机械科学与工程学院.
Μ子寿命测量 王纬臻 合作者 吴泽文 指导老师:乐永康.
园林专业本科阶段课程拓扑图:平台期课程 通识 12 数学 14 物理 4 化学 11 英语 6 政治 14
数据挖掘工具性能比较.
走进中国科技网 中国科技网 李辉.
ScienceDirect高级检索功能及使用视频、说明发现路径
2016年博士研究生国家奖学金答辩 姓名: 学院: 专业: 年级: 2016年10月.
Science and technology report service systemUsage method
DevDays ’99 The aim of this mission is knowledge..
美国数学学会 MathSciNet 电子资源的检索和使用
WSDM见闻 程龚.
京师数学大讲坛 第六讲 北京师范大学 数学科学学院
NoteExpress进阶 宋敏 电子资源部
中国XX大学 毕业答辩模板 此模板可用于本科毕业答辩/硕士毕业答辩/学术研究等.
数据库使用指南 Nature全文数据库.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
2019/4/26 关注NE官方微信,获取更多服务.
G-蛋白偶联受体信号传导和膜转运机制研究进展
河北大学申请博士生导师 人员基本情况 彩色照片 小二寸 免冠 一、近五年科研项目情况 姓名:张 芳 出生日期: 职称:
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
黄焕雷 主任医师、医学博士、硕士研究生导师
申请者基本情况 姓 名: 导 师: 学 科: 论文题目:.
申请者基本情况 姓 名: 导 师: 学 科: 论文题目:.
张 雄 教授、广东省人民医院神经科主任医师、病区行政主任
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
张晓 主任医师、硕士生导师 广东省人民医院风湿免疫专科主任、中国医师协会风湿病专业分会副会长、广东省医师协会风湿病专业主任委员
王树水 主任医师 广东省心血管病研究所心儿科副主任 广东省介入性心脏病学会结构性心脏病分会侯任主任委员 招生专业与类型 科研工作 教育经历
SIAM全文电子期刊数据库国际站使用指南
甘肃农业大学伏羲学者年度考核 伏羲杰出人才 潘晓婷,女,体育教学部教授,硕士生导师.
基于最大margin的决策树归纳 李 宁.
周成斌 主任医师、硕士生导师 广东省华南结构性心脏病重点实验室副主任 招生专业与类型 科研工作 教育与工作经历
深 圳 职 业 技 术 学 院 SHENZHEN POLYTECHNIC
蔡世民 合作者:禚钊,傅忠谦,张捷 电子科学与技术系 中国科学技术大学 2011/4/29
软件服务导论 刘 驰 教授 博士生导师 北京理工大学计算机学院 副院长
SIAM全文电子期刊数据库国际站使用指南
材料化学工程国家重点实验室 学术报告 Brief Introduction: 报告题目:Wetting at the Nano-Scale
中国学位论文全文数据库使用指南1.2 图书馆技术部 2012年9月.
学习数据结构的意义 (C语言版) 《数据结构》在线开放课程 主讲人:李刚
入侵检测技术 大连理工大学软件学院 毕玲.
能源与动力工程学院 研究生招生专业介绍.
The 15th National Conference on Computer Chemistry of China
光电材料与技术国家重点实验室学术交流会 时间:2016年11月17日(星期四)上午9:00-10:00
Presentation transcript:

大数据环境下的文献分析与利用 叶艳鸣 2013·11

一、几点认识

大数据的海啸——巨量信息 43,600,000条结果

大数据的海啸

大数据时代的四个特征

大数据的阶梯处理过程模型 knowledge 模式评估 多阶段流水处理模型: 数据挖掘 任务相关数据 选择 数据仓库 数据清理 数据集成 6

主要的知识发现技术 主要技术 说明 内容管理技术 数据建模技术、版本控制技术、检索技术、文件路由技术等 文档管理技术 分类归档、外部特征管理、关键词管理 信息提取技术 人工智能技术、Bayesian 概率和词频统计分析、向量空间模型 信息过滤技术 固定文章集法、协作过滤技术 文本挖掘 利用智能算法,并结合文字处理技术,分析大量的非结构化文本源 数据仓库 在线分析处理(OLAP)、在线事务处理(OLTP) 分类技术 决策树、贝叶斯方法、神经网络、遗传算法、粗糙集和实例推理(CBR)等。 聚类技术 统计分析方法、模糊逻辑、最近邻技术、规则归纳 bookmark 智能化网络信息服务系统 根本原因分析 它是一种回溯性失误分析工具 云模型 解决数据挖掘中的知识表示问题 可视化技术 几何投射技术、基于图标技术、面向像素的技术、层次技术、基于图表技术

基于文献的知识发现原理与技术 基 于 文 献 的 知 识 发 现 基于全文献的 知识发现 共词分析理论与方法 基于相关文献的 知识发现 共引分析理论与方法 基于非相关文献的 知识发现 Swanson理论与方法 基于全文献的 知识发现 文本挖掘理论与方法 资料来源:冷伏海《基于文献的知识发现的应用进展研究》

大数据的开发路径 Link data Mata data Big data

知识发现进阶

二、“大数据”困局的破解之道 ——目录索引的起源与发展

由《易经》想到的: 《易经》道:“易”有三易: 简易 变易 不易

易有太极,是生两仪,两仪生四象,四象生八卦 《易经》之简易 简易:万事万物都是非常简单的,大道至简 《周易·系辞上》: 易有太极,是生两仪,两仪生四象,四象生八卦 现代计算机之“0、1”世界

《易经》之变易 变易:宇宙万物,时刻变化,人事皆是如此 《周易·系辞上》: 知变化之道者,其知神之所为乎?

不易:变的规律本身是相对不变的,是相对静止和相对稳定的,是可以感知的 《易经》之不易 不易:变的规律本身是相对不变的,是相对静止和相对稳定的,是可以感知的 《周易·系辞上》: 易无思也,无位也,寂然不动, 感而遂通天下之故

人类应对“大数据”之路径 岩刻、结绳记事、 文字起源 远古 实体世界 符号化 符号化 复杂 简化

日出云端与“旦”字的产生 喂…有好“大”一片树林呀 信息的标识:实物→图画→象形文字

符号的产生: 人与自然区分的分水岭 虚拟世界的起源

人类应对“大数据”之路径 语言、书籍、通信 知识体系起源 古代 信息世界 知识体系 符号化 复杂 简化

人类应对“大数据”之路径 书、报、刊、学位论文、 标准、专利…… 目录学起源 近代- 现代 藏书体系 目录体系 符号化 复杂 简化

目录系统 OPAC系统

人类应对“大数据”之路径 数字化、网络化 大数据时代来临 新世纪 大数据 Linked Data 符号化 复杂 简化

《易经》思想给出的 “大数据”困境破解之道

大数据集 符号 知识体系 文字 论著 语句

三、基于知识挖掘的文献分析与利用 ——以基因组研究为例

1、纵观全局的动态调研

研究概貌 315,264条

研究概貌

2、研究关联性分析(热点追踪)

主要研究领域(关键词分析)

不同时期研究热点变化追踪 1995-1999年 2005-2012年

3、研究关联性分析(时间序列)

研究继承性追踪

研究继承性追踪(引用)

不同文献敏感度 关键词:禽流感 近些年,通过各种管道,实行牧民定居工程,

不同文献敏感度 关键词:禽流感 近些年,通过各种管道,实行牧民定居工程,

竞争态势分析

4、机构研究能力评价分析

学术产出评价

学术产出评价—高产学者 曾汉民(353) 陈规划(329) 何晓顺(278) 傅家瑞(277) 余学清(267) 莫金垣(259) 梁力建(246) 曾陇梅(234) 滕皋军(224) 詹文华(222) 中山大学附属第三医院院长、党委副书记、教授、博士研究生导师。中华医学会器官移植学分会常委兼肝脏移植学组副组长、中华医学会外科学分会常委兼外科手术学组组长 著名高分子化学和材料科学家及教育家,教授、博士生导师,中山大学校长(91-95年),863新材料领域第一届首席科学家,何梁何利基金科学与技术进步奖获得者 中山大学附属第一医院副院长、教授、博士生导师。卫生部人体器官移植临床应用专家委员会委员,《中华外科杂志》、《中华实验外科杂志》、《中华器官移植杂志》等编委

东北大学学术产出最多的前10名学者 王国栋教授:中国工程院院士。现任东北大学轧制技术及连轧自动化国家重点实验室学委会副主任,中国金属学会轧钢学会副理事长,中国材料研究学会理事 王国栋(871) 刘相华(761) 闻邦椿(524) 翟玉春(451) 崔建忠(399) 柴天佑(392) 徐心和(321) 张庆灵(320) 赵海(314) 樊治平(285 刘相华教授,轧制技术及连轧自动化国家重点实验室主任。获国家科技进步二等奖2项,国家技术发明二等奖1项,国家发明创业奖1项,获得授权发明专利23项 蒋亚东教授,东北大学机械电子工程研究所名誉所长,国务院学位委员会第二、三、四届机械工程学科评议组成员, 1984年被评为全国第一批有突出贡献的中青年专家,1991年当选为中国科学院院士

清华大学与四川大学的专利对比情况

四、基于发现系统的用户行为分析

数据库: 书世界、CNKI、万方、超星书、方正…. 无缝对接的 全文服务功能 OPAC:本馆纸书 数据库: 书世界、CNKI、万方、超星书、方正…. 发现系统 读秀: 图书补缺 百链: 期刊等文献补缺

读秀 云共享服务 数据库

数据库使用量

学科使用量统计

每一次信息技术进步都极大地推动了 科学技术的飞跃发展

知识发现 为科技创新插上飞翔的翅膀

谢 谢