Presentation is loading. Please wait.

Presentation is loading. Please wait.

基于PubMed开发的大数据 分析工具在科研中的应用 张士靖 华中科技大学同济医学院

Similar presentations


Presentation on theme: "基于PubMed开发的大数据 分析工具在科研中的应用 张士靖 华中科技大学同济医学院"— Presentation transcript:

1 基于PubMed开发的大数据 分析工具在科研中的应用 张士靖 华中科技大学同济医学院 zhangsj9999@163.com
············································································································ 分析工具在科研中的应用 张士靖 华中科技大学同济医学院

2 引言:我们进入了大数据时代 “在洛杉矶,警方通过数据分析,预测12小时内哪个地区最有可能发生犯罪;在伦敦金融城,一位交易员认为,数学计算可成为发财”秘笈”;在南美,天文学家尝试为整个宇宙进行分类记录……这些迥然不同的领域如今出现同一特征:数据量的大爆发。” 这是英国广播公司品牌栏目《地平线》最新播出的纪录片《大数据时代》中的开篇一幕。 2012年3月29日,美国奥巴马政府宣布推出“大数据研究和发展计划”( Big Data Research and Development Initiative),该计划涉及NSF等6个联邦政府部门,投资超两亿美元,研发采集、组织和分析大数据的工具及技术。有人将其比之为克林顿政府1993年推出的“信息高速公路” 计划 。 美国政府大数据计划的出笼,表明大数据技术已经上升为国家战略。

3 据 IDC (国际数据公司)统计,全球数据量以年均50%的速率增长。2011 年全球所产生的数据总量是 1.8 ZB(10 的 21 次方)
1TB (Trillionbyte ,太字节)=1024GB 1PB (Petabyte, 拍字节)=1024TB 1EB (Exabyte , 艾字节)=1024PB    1ZB (Zettabyte , 泽字节)= 1024 EB =100万PB=10亿TB 但是,对于医生、教师、研究生等专业人员来说,“大数据”的核心资源,依然还是学术文献、统计报告、科技成果等正式出版或规范发布的数据资源。

4 两个案例 乐友孕婴童运用大数据分析了解顾客的需求,带来大幅的业务增长。
乐购通过分析会员卡用户的购物数据,对顾客分类,有针对性地发广告邮件,每年节省 3.5 亿英镑的广告费用。 如果我使用数据分析工具,对科题进行分析,能否节约时间和经费? 乐友孕婴童运用大数 据分析了解顾客的需求

5 1985年,芝加哥大学的Don.R Swanson教授,在研究时偶然发现以雷诺氏病生理改变作为中间词,可将以鱼油和雷诺氏病为主题词分别检索到的两组原本无联系的文献联系起来,得出鱼油有助于雷诺氏病的治疗结论。于是,Swanson教授提出了基于文献的知识发现( Literature-based Discovery) 理论。 那么,基于此理论开发的知识发现系统对科研是否有帮助?

6 除了Arrowsmith文献分析系统外,常用的文献分析软件还有:HistCite; Bibexcel; SATI;
事实证明,Swanson和Smalheiser开发Arrowsmith分析系统,发现了大量的新知识。2000年,美国情报科学与技术学会(ASIST)因为Swanson独特的情报学方法授予他该学会的最高成就奖。 除了Arrowsmith文献分析系统外,常用的文献分析软件还有:HistCite; Bibexcel; SATI; Thomson Data Analyzer; CiteSpace; Pajek; Ucinet; Vosviewer; SPSS; Aureka; RefViz等,以及完全基于PubMed开发的德国的GoPubMed;中国的bdPubMed;美国的Anne O'Tate、PubFocus以及欧洲的CiteXplore等。

7 Arrowsmith知识发现系统简介 基于共词分析技术的Arrowsmith工具可以作 为专业人员的科研辅助工具,引导科研人员认识和发
现不同科学、不同研究方向之间潜在的有科学价值的 信息,以便进一步证实科学假设的可行性。

8 Arrowsmith知识发现系统简介 我们以探讨虫草素与肠 粘膜屏障功能稳定的潜 在相关性研究为例,简 单介绍Arrowsmith的
使用方法。

9 Arrowsmith知识发现系统简介 以虫草素“cordycepin[ab]” 的检索结果为文献A集合

10 Arrowsmith知识发现系统简介 以肠黏膜“Intestinal Mucosal[TI]” 的检索结果为文献C集合

11 Arrowsmith知识发现系统简介 截至2014年10月25日,文献A和C的 检索结果分别为795和801篇,A和
共同出现的词语形成的B集合中共有 861个词。

12 Arrowsmith知识发现系统简介 利用Arrowsmith中语义过滤器以 “Chemicals & Drugs”、“Genes &
Molecular Sequences, and Gene & Protein Names”、“Physiology”进行 语义过滤,去除不相关的词。

13 Arrowsmith知识发现系统简介 根据语义过滤,去除文献B中 不相关或相关度小的词。

14 Arrowsmith知识发现系统简介 结合文献全文发现,蛹虫草对炎性肠 病及消化系统疾病高度相关,但用以 治疗是否有效,需要在后续的临床研
究中加以验证。 参考:李文林,潘苏华,关洪月.基于Arrowsmith 探讨虫草素与肠粘 膜屏障功能稳定的潜在相关性.医学信息,2009,22(12):

15 CiteSpace CiteSpace 基于JAVA的可视化文献分析软件
能够显示一个学科或知识域在一定时期发展的趋势、动向及热点,形成若干研究前沿领域的演进历程。

16 SPSS是世界上最早采用图形菜单驱动界面的统计软件,
它最突出的特点就是操作界面极为友好,输出结果美观漂亮。

17 GoPubMed GoPubMed系统简介
GoPubMed由德国Transinsight和德国Technical University Dresden合作开发,该系统的数据库与PubMed检索结果一样。 GoPubMed是Gene Ontology(GO)在PubMed数据库中的深度应用。 Rules and reasoning for ontology-based literature search GoPubMed是利用生物信息学相关知识开发的一个 可以对PubMed检索结果进行探索、分析的工具/智能搜索引擎。

18 各类统计分析 高度相关的概念

19 GoPubMed系统简介 各类统计分析 Top Years Top Countries Top Cities Top Journals
Top Authors Top Terms

20 GoPubMed系统简介 课题发展趋势

21 GoPubMed系统简介 地区分布图

22 GoPubMed系统简介 作者合作网络

23 Anne O'Tate 伊利诺伊大学芝加哥分校开发

24 Anne O‘Tate对PubMed检索结果
按照重要的单词、MeSH主题、所 属单位、作者姓名、期刊和出版年 进行分组,点击给定的分类名称即 可显示该类别中的所有文章。

25 medline-ranker 马克斯•德尔布吕克分子医学中心开发 medline-ranker与用户输入的某个主题相比
较,自动推断出一组非常有判断力的单词,用 这些单词对相关的文章进行评分和排序。

26 PubFocus 南加州大学洛杉矶分校开发 PubFocus可以按照期刊的影响因子、作者的贡献水
平等多种因素对文献进行排序,用户可能找到某一 学科或某个领域内的最有影响力或最多产出的作者, 或是了解在某学校领域内哪种期刊发表的文章最多。

27 本地PubMed简介 本地PubMed检索系统是华中科技大学同济医学院与济南泉方科技有限公司合作开发的本地化数据库产品,本检索系统产品是在美国PubMed的基础上,参考Web of Science数据库、Google Scholar谷歌学术搜索、德国的GoPubMed等,并结合华中科技大学的创新和泉方公司大数据分析技术,开发出的新一代高水平的外文医学检索平台,为科研和临床提供高效而准确的参考资料。

28 本地PubMed简介 为什么要本地化?2011年,2012年,2013年 均出现过短暂的(有时长达一个月以上)无法
正常访问的现象,本地化不受影响。

29 本地PubMed简介 为什么要本地化?医院内部局域网因为安全的 考虑,一般是不能访问外网的,本地PubMed
可以安装在医院内网,方便临床和科研的使用。

30 G&G 本地PubMed简介 PubMed 继承PubMed检 索语法,检索界 在期刊的影响因子上,参考了SCI发布 面及检索结果
的期刊引证报告JCR G&G 在被引用的次数上, 参考了谷歌学术搜索 GS(Google Scholar) 在检索结果上增加了 数据分析,并参考了 GoPubMed统计功能 为什么要本地化?因为可以提供更加强大的功能!

31 本地PubMed简介 为什么要本地化?因为可以为临床和科研提供帮助! 发表于国际期刊《Diabetes》《糖尿病》
(2010年度影响因子8.889) 中对济南泉方的致谢: Acknowledgements We thank all the staff at Jinan Quanfang Science & Technology Co., Ltd., for their bibliographic retrieval service. 发表于《Clin Pharmacol Ther》 《临床药理学与治疗学》 (2010年度影响因子6.378) 中对济南泉方的致谢: Acknowledgments We thank all the staff at Jinan Quanfang Science & Technology Co., Ltd., for their bibliographic retrieval service.

32 本地PubMed特色 本地PubMed检索系统能够提供更加强大 的检索功能,包括联想检索、按IF值过滤以及
检索结果的图形化显示等,让检索更加高效, 在线的全文申请也更加方便。 专利所有,侵权必究。

33 本地PubMed特色 本地PubMed检索系统能够提供强大的 数据分析功能,通过知识图谱可以了解各领 域的发展趋势和热点,及时了解世界各国主
流科学家的研究方向。 专利所有,侵权必究。

34 本地PubMed特色 本地PubMed检索系统提供的共词矩 阵分析可以对反映文献主题内容的关键词 的共现频次进行统计分析,揭示文献内在
联系、研究热点和科学结构。 专利所有,侵权必究。

35 本地PubMed特色 当人们的需求已经不只是简单的文 献检索和文献计量,而是希望能够对这 些文献进行较高层次的处理和分析以得
到关于某领域总体特征和对发展趋势的 预测时,知识发现将文献变为知识,从 海量文献中找到蕴藏的知识金块,将为 知识创新和学科发展作出贡献。

36 本地PubMed功能简介 检索举例: 糖尿病肾病方面的文献
糖尿病肾病(Diabetic nephropathy,DN)可谓是糖尿病患者的终极杀手。据中国之声《全国新闻联播》报道,中国目前糖尿病患者人数高达1.14亿,它是继肿瘤、血管病变之后第三大严重威胁人类健康的慢性非传染性疾病,具有高致死率、高致残率和高医疗花费的特征。 长期以来,在人们的印象中,2型糖尿病发病的两个关键因素一直是胰岛素抵抗和(或)胰岛素分泌不足,然而,严格控制血糖、血压水平以及阻断肾素-血管紧张素系统的传统治疗方法不能完全阻止DN的发生,说明还有其它因素。 那么还有那些因素呢?在本地PubMed中检索"Diabetic Nephropathies"[Mesh],在检索结果界面,点击右侧“知识图谱”

37 在检索结果界面,点知识图谱

38 知识演进图谱分X轴和Y轴,其中,X轴是年份,Y轴是发文数量,从图中可以看到各个研究方向(主题词)在各个年份的研究文献的数量。系统默认推荐20个主题词,我们可以点“更多主题词”来了解更多:

39 在更多主题词中,根据研究领域的不同,分为多个大类,我们点击“Amino Acids, Peptides, and Proteins”《氨基酸,肽类和蛋白质》

40 病机制中占据重要地位,其涉及的致炎因子有望成为DN及其他炎症性疾病 新的治疗靶标之一。
可以看到: Hemoglobin A, Glycosylated; (糖基化血红蛋白A) Glycosylation End Products, Advanced; (晚期糖基化终末产物) Cholesterol, HDL; (高密度脂蛋白胆固醇) Serum Albumin; (血清白蛋白) C-Reactive Protein(C反应蛋白) 等,目前研究者众多,而这些词基 本上都与炎症相关。 从文献报道中可以看出,越来越多的研究表明炎症过程可能在DN的发 病机制中占据重要地位,其涉及的致炎因子有望成为DN及其他炎症性疾病 新的治疗靶标之一。 炎症以炎症细胞浸润,黏附分子、炎症趋化因子和致炎因子表达增强, C反应蛋白(C-reactive protein,CRP)水平升高为特征。我们通过知识 演进图谱,可以了解一下C反应蛋白的研究历史:

41 从图中可以看到,主题词: C反应蛋白最早一 篇文献,发表于1996年,是国际著名医疗机构丹
麦Steno糖尿病研究中心的Myrup, B等,发表于 《Thrombosis research》(血栓形成研究), 该刊影响因子为3.13,2000年时,又有两篇文 章发表,其中一篇发表于《J Am Soc Nephrol》 《美国肾病学会志》,该刊影响因子为8.99, 从此关于此方向的研究多了起来。 如果我们想进一步去了解,有关C反应蛋白 的高影响因子的论文或者高被引次数的论文, 那么,在本地PubMed的检索结果界面,我们还 可以看到,高IF论文和高TC论文的按钮。 C-Reactive Protein 1996年最早一篇关于 C反应蛋白的文献

42 可以看到文献: Elevated fibrinogen and the relation to acute phase response in diabetic nephropathy. Thromb Res Feb 15;81(4): 影响因子: 引用次数:62 具体的被引用情况,当然,在此界面也可以进行学术检索。

43 表于《Kidney International》(国际 肾病学),该刊影响因子为7.92:
2004年发表的 一篇高影响因子文献 从图中可以看出,2004年的一篇发 表于《Kidney International》(国际 肾病学),该刊影响因子为7.92: Potential cardiovascular risk factors in chronic kidney disease: AGEs, total homocysteine and metabolites, and the C-reactive protein. Kidney Int. 2004 Jul;66(1): 随后又有一些高影响因子的期刊报道 这方面的文献。 C-Reactive Protein

44 发表于《Diabetologia》(糖尿病学)的 文献,目前,已被引用了199次,是该领 域内的经典文章,想了解该领域,不可不看:
2003年发表的 一篇高被引次数文献 高被引次数论文,这里的被引次数,其 数据来源于谷歌学术搜索,2003年的一篇 发表于《Diabetologia》(糖尿病学)的 文献,目前,已被引用了199次,是该领 域内的经典文章,想了解该领域,不可不看: Diabetic nephropathy is associated with low- grade inflammation in Type 1 diabetic patients. Diabetologia Oct;46(10): C-Reactive Protein

45 作为普通的一名临床大夫,如果您更关心的,目前就有哪些药物用于DN的治疗,那么,可以使用到知识演进图谱中的“设置”功能:
思考: 如果想了解就有哪些治 疗方法?该如何设置? 因为,我们要了解就有哪些药物可治疗该病症,因此,可以勾选“副主题词过滤”中的“therapeutic use”,然后再点击“更多主题词”勾选我们需要了解的相关药物:

46 从上图中可以看到,治疗DN的药物主要为Angiotensin-Converting Enzyme Inhibitors(血管紧张素转换酶抑制剂,ACEI);Antihypertensive Agents(抗高血压药);Insulin(胰岛素);Hypoglycemic Agents(降糖药);Angiotensin II Type 1 Receptor Blockers(血管紧张素Ⅱ1型受体拮抗剂,ARB)等,具体的药物有Losartan(洛沙坦);Captopril(卡托普利);Enalapril(依那普利)等。

47 从发文量来看,1965年就有了关于Insulin的报道,截止到目前的发文量为367篇,1987年出现了第一篇关于ACEI的报道,截止到目前的发文量为801篇,2002年出现了第一篇关于ARB的报道,截止到目前的发文量为199篇(上图加粗显示者),从时间上来看,Insulin持续的在研究和报道,而ACEI在2005年发文量大幅下降之时,正在ARB发文量大幅增长之时,而实际情况也正是,ARB为该系统的一类新药,与ACE I相比具有许多独到之处。

48 作为一种新药,如果想进一步了解,这种新药ARB与DN之间的更多研究和应用,那么我们还可以使用“指纹共词”来进一步了解。指纹共词是两个主题词共同出现在一组文献中的篇数,并将演进路径显示出来的一种方法。在检索结果界面,我们即可以看到这个按钮。 进入共词分析界面后,我们可以点击“更多主题词”来选择我们需要分析的具体的主题词。

49 共词演进图,X轴表示年份,Y轴表示共献次数,点击可查看具体信息
从图中可以看出,ARB与DN同时出现在一篇文献中的时间最早为2002年,2014年(截止到2014年8月份)共同出现在同一篇文章的数量为6篇,它们是:

50 这6篇文献中其中5篇文献均来源于大名鼎鼎的《N Engl J Med》(新英格兰医学杂志),该刊与《Lancet》(柳叶刀)、《JAMA》(美国医学会杂志)均属于世界医学权威期刊,如此多篇幅的报道ARB与DN,很有可能该方面将成为未来研究的热点。

51 获取全文的方法 ·········································· 全文链接 免费全文网站
提供免费全文的期刊 图书馆电子或纸质资源 作者 联系或作者主页 图书馆馆际互借或文献传递 ······

52 检索结果全文的获取 申请全文

53 当检索结果少于2000条时,系统自动图 形化显示,其中X轴表示年份,Y轴表示影响 因子,在一界面显示整个检索结果的画卷。

54 您在本地PubMed检索系统上申请的全文,您所在单位图书馆的相关部门(比如,馆际互借处或文献服务部或委托的其他部门或单位等),将可以看到您的申请,当查询本单位图书馆无您所需要的文献后,根据情况将向与之签署有馆际互借或文献传递服务相关协议的可提供馆际互借服务的第三方图书馆发出文献申请,获取到您所需要的全文后,再发送到您在本地PubMed检索系统的邮箱(即“我的文件夹”)中,此时,您申请的全文其全文状态将有“全文处理中…”变为“打开全文”。 “我的文件夹”中所申请的全文, 获取到的全文可以在线打开。 说明:申请前,请务必先查询馆藏,若无再点击该篇文献下方的“全文链接”查看本单位是否有订购以及是否有可以免费获取的全文,若本单位图书馆无订购也无馆藏也无可以免费获取的全文,您再申请。

55 本地PubMed开通使用说明 本地PubMed检索平台网址:www.bdpubmed.com 第一步:点击“注册新用户”按钮;
(推荐使用谷歌浏览器,本系统不支持IE6.0或以下版本浏览器) 第一步:点击“注册新用户”按钮; 输入本单位的公共账号和密码:请咨询您所在单位图书馆 第二步;显示本单位名称后填写个人信息; 第三步:登陆个人邮箱进行验证并激活; 打开自己注册的邮箱点击链接认证后凭个人的邮箱和密码登录即可。 高校的读者,在校园网内使用无需注册,但可以注册漫游账号在家使用。 服务电话:

56 谢谢大家!Good Luck! 张士靖 华中科技大学同济医学院 zhangsj9999@163.com
················································································ 欢迎批评指正!! 张士靖 华中科技大学同济医学院


Download ppt "基于PubMed开发的大数据 分析工具在科研中的应用 张士靖 华中科技大学同济医学院"

Similar presentations


Ads by Google