基于PubMed开发的医学文献分析工具 —— 本地PubMed 史继红 哈尔滨医科大学图书馆 ············································································································ 史继红 哈尔滨医科大学图书馆 1 2017/3/7
1. 文献分析工具 2. 本地PubMed 3. 本地PubMed的特点 4. 如何使用本地PubMed 2 2017/3/7
做物流不是为了送包裹,而是这些数据合在一起。 阿里巴巴公司本质上是一家数据公司,做淘宝的目的不是为了卖货,而是获得所有零售的数据和制造业的数据; 做物流不是为了送包裹,而是这些数据合在一起。 阿里巴巴对一个人的了解程度远远超过你自己,电脑会比你更了解你。 如果我们使用大数据分析工具,进行科研选题分析,结果会怎样?
1985年,芝加哥大学的Don.R Swanson教授,在研究时偶然发现以雷诺氏病生理改变作为中间词,可将以鱼油和雷诺氏病为主题词分别检索到的两组原本无联系的文献联系起来,得出鱼油有助于雷诺氏病的治疗结论。于是,Swanson提出了基于文献的知识发现( Literature-based Discovery) 理论。
目前,除了Arrowsmith分析系统外,常用的文献分析软件还有: HistCite; Bibexcel; SATI; 事实证明,Swanson开发的Arrowsmith分析系统,发现了大量的新知识。2000年,美国情报科学与技术学会(ASIST)因为其独特的情报学方法授予他该学会的最高成就奖。 目前,除了Arrowsmith分析系统外,常用的文献分析软件还有: HistCite; Bibexcel; SATI; Thomson Data Analyzer; CiteSpace; Pajek; Ucinet; Vosviewer; SPSS; Aureka; RefViz等,以及完全基于PubMed开发的德国的GoPubMed;中国的bdPubMed;美国的Anne O'Tate、PubFocus以及欧洲的CiteXplore等。
1.Arrowsmith知识发现系统简介 基于共词分析技术的Arrowsmith工具可以作 为专业人员的科研辅助工具,引导科研人员认识和发 现不同科学、不同研究方向之间潜在的有科学价值的 信息,以便进一步证实科学假设的可行性。 http://arrowsmith.psych.uic.edu/
Arrowsmith知识发现系统简介 在此,以“虫草素与肠 粘膜屏障功能稳定的潜 在相关性研究”为例,介 绍Arrowsmith的使用方法。
Arrowsmith知识发现系统简介 以虫草素“cordycepin[ab]” 的检索结果为文献A集合
Arrowsmith知识发现系统简介 以肠黏膜“Intestinal Mucosal[TI]” 的检索结果为文献C集合
Arrowsmith知识发现系统简介 截至2014年10月25日,文献A和C的 检索结果分别为795和801篇,A和 共同出现的词语形成的B集合中共有 861个词。
Arrowsmith知识发现系统简介 利用Arrowsmith中语义过滤器以 “Chemicals & Drugs”、“Genes & Molecular Sequences, and Gene & Protein Names”、“Physiology”进行 语义过滤,去除不相关的词。
Arrowsmith知识发现系统简介 根据语义过滤,去除文献B中 不相关或相关度小的词。
Arrowsmith知识发现系统简介 结合文献全文发现,蛹虫草对炎性肠 病及消化系统疾病高度相关,但用以 治疗是否有效,需要在后续的临床研 究中加以验证。 参考:李文林,潘苏华,关洪月.基于Arrowsmith 探讨虫草素与肠粘 膜屏障功能稳定的潜在相关性.医学信息,2009,22(12):2684-2687.
2.CiteSpace CiteSpace 是一种基于JAVA的可视化文献分析软件,能够显示一 个学科或知识领域在一定时期的发展趋势、动向及研究热 点,发现若干个研究领域的演进历程。 http://cluster.cis.drexel.edu/~cchen/citespace/
3.SPSS SPSS是世界上最早采用图形菜单驱动界面的统计软件, 最突出的特点就是操作界面极为友好,输出结果美观漂亮。
4. GoPubMed系统 GoPubMed 2006年由德国Transinsight公司和德国Technical University Dresden合作开发,以PubMed为数据源、以语义检索为技术的生命科学文献搜索引擎。 利用基因本体(gene ontology)和医学主题词表(mesh terms)对文献进行全面分析 。 GoPubMed是利用生物信息学相关知识开发的一个可以对PubMed检索结果进行聚类、分析的工具/智能搜索引擎。
各类统计分析 高度相关的概念
GoPubMed系统 各类统计分析 Top Years Top Countries Top Cities Top Journals Top Authors Top Terms
GoPubMed系统 课题发展趋势
GoPubMed系统 地区分布图
GoPubMed系统 作者合作网络
5.Anne O'Tate 伊利诺伊大学芝加哥分校开发 http://arrowsmith.psych.uic.edu/cgi-bin/arrowsmith_uic/AnneOTate.cgi
Anne O‘Tate对PubMed检索结果 按照重要的单词、MeSH词、所 属单位、作者姓名、期刊和出版年 进行分组,点击给定的分组名称即 可显示该组别中的所有文章。
6.medline-ranker 马克斯•德尔布吕克分子医学中心开发 medline-ranker与用户输入的某个主题相比 较,自动推断出一组非常有判断力的单词,再用 这些单词对相关的文章进行评分和排序。 http://cbdm.mdc-berlin.de/~medlineranker/cms/medline-ranker
7.PubFocus PubFocus按照PubMed期刊的影响因子、作者 贡献水平等多种因素对文献结果进行排序,用户 南加州大学洛杉矶分校开发 PubFocus按照PubMed期刊的影响因子、作者 贡献水平等多种因素对文献结果进行排序,用户 可以找到某一学科或某领域内最有影响力或最多 产出的作者,或了解某学校某领域内哪些期刊 发表的文章最多。
讲授内容 1. 关于大数据分析工具 2. 什么是本地PubMed 3. 本地PubMed的特点 4. 如何使用本地PubMed 26 2017/3/7
1. 什么是本地PubMed(bdPubMed) 本地PubMed是华中科技大学同济医学院与济南泉方科技有限公司合作开发的本地化的数据库系列产品,在PubMed基础上,参考Web of Science、Google Scholar、GoPubMed等,开发出的新一代多功能外文医学文献检索平台,可以准确、快速、高效、方便地提供最优质的医学文献资源服务。 27 2017/3/7
达一个月以上)无法访问,本地化不受影响。 为什么要本地化? 理由1: 当PubMed不能正常访问时,如2011年, 2012年,2013年均出现过短暂的(有时长 达一个月以上)无法访问,本地化不受影响。 理由2: 医院内部局域网因为安全考虑,一般是不能 访问外网的,本地PubMed可以安装在医院内 网,方便院内不能访问外网时使用。 30 2017/3/7
讲授内容 1. 关于大数据分析工具 2. 什么是本地PubMed 3. 本地PubMed的特点 4. 如何使用本地PubMed 31 2017/3/7
G&G PubMed 期刊影响因子参考SCI发布的期刊引证报告JCR 检索方法、检索界面及检索结果 与PubMed一致 被引频次参考Google Scholar 一般数据结果分析 参考GoPubMed 32 2017/3/7
突出特色 强大的数据分析功能 与PubMed相比具有以下特点: ⑴ 可以在PubMed不能访问时使用; ⑵ 部分文献可以显示参考文献及引证文献列表; ⑶ 增加了期刊影响因子或论文被引频次过滤功能; ⑷ 增加了知识图谱、共词分析、高IF论文、高TC论文等特殊数据分析功能; ⑸ 增加了一般数据统计分析功能; (6)在线申请全文,通过与本单位图书馆资源及馆际互借系统相关联。 突出特色 强大的数据分析功能 快速了解某主题的文献分布情况 快速定位某领域的高影响力文献 快速选择某领域的高质量期刊文献 快速分析某主题的发展趋势 揭示主题概念间的内在联系 33 2017/3/7
PubMed检索 过滤功能 特殊数据分析
统计分析
本地PubMed通过参考各种分析工具,将检索结果的深入分析及全文获取整合在一个平台下,比较适用于对PubMed检索结果有深度分析需求的用户(医学院校和大型医院),尤其适用于不能提供SCI检索服务和外文全文库比较少的机构。 36 2017/3/7
讲授内容 1. 关于大数据分析工具 2. 什么是本地PubMed 3. 本地PubMed的特点 4. 如何使用本地PubMed 37 2017/3/7
查找糖尿病肾病(Diabetic Nephropathy)方面的文献 4.如何使用本地PubMed 查找糖尿病肾病(Diabetic Nephropathy)方面的文献 糖尿病肾病(Diabetic nephropathy,DN)是糖尿病患者的终极杀手。据中国之声《全国新闻联播》报道,中国目前糖尿病患者人数高达1.14亿,是继肿瘤、血管病变之后第三大严重威胁人类健康的慢性非传染性疾病,具有高致死率、高致残率和高医疗花费的特征。 38 2017/3/7
如何对检索结果做更深入的分析? 利用本地PubMed
4.如何使用本地PubMed 4.1 基本数据统计分析(文献分布情况) 4.2 高影响因子期刊论文和高被引频次论文分析 4.3 SCI论文分区 4.4 知识图谱分析 4.5 共词分析 4.6 知识发现 4.7 获取全文 40 2017/3/7
检索结果与Pubmed结果一致 结果分析工具
4.1 基本数据统计分析 对文献的作者、期刊、主题词、文献类型、 出版年、出版国家、文献语言等的计量分析。 42 2017/3/7
作者分析 期刊分析 主题词分析 发文年代分析 发文国家分析 文献类型分析 文献语种分析 43 2017/3/7
4.2 高IF论文和高TC论文 概念: 影响因子(IF): 被引频次(TC):指某文献在特定源期刊(如 SCI)中被引用的次数。本系统所使用的被引次 数来源于谷歌学术(Google scholar)中的被 引次数。 (将Google scholar的结果整合到本平台) 44 2017/3/7
威望指数SJR(SCImago Journal Rank)
查找高IF论文和高TC论文
影响因子最高的几篇文献均来自New England Journal of Medicine(IF54 时 间
被引频次大于110的文献较多,其中最早的一篇出现于1967年,被引721次 被引频次数据每月更新一次 时间
4.3 SCI论文分区 JCR(期刊引证报告)将SCI收录的期刊按 照影响因子由高到低分为1-4四个区,发表在1 区和2区的论文,通常被认为是该学科领域的比 较重要的论文。 49 2017/3/7
选择不同的分区可以对检索结果按照分区进行精炼。
4.4 知识图谱 利用可视化的图和谱形象地展示某学科的 发展进程与研究热点。 图:表示形状 谱:代表谱系(文献演进过程) 51 2017/3/7
知识演进图谱展示了各个研究方向在各年份的文献数量 系统默认前20个主题词,点击“更多主题词”可以了解更多 发文量 时间
在“更多主题词”中,根据研究领域的不同,分为多个大类(109个) 点击“Amino Acids, Peptides, and Proteins”《氨基酸,肽类和蛋白质》
Hemoglobin A, Glycosylated; (糖基化血红蛋白A) Glycosylation End Products, 可以看到: Hemoglobin A, Glycosylated; (糖基化血红蛋白A) Glycosylation End Products, Advanced; (晚期糖基化终末产物) Cholesterol, HDL; (高密度脂蛋白胆固醇) Serum Albumin; (血清白蛋白) C-Reactive Protein(C反应蛋 白)等,目前研究者众多, 而这些词基本上都与炎症相关。 从上述结果可以看出,越来越多的研究表明炎症过程可能在DN的发病机制中占据重要地位,其涉及的致炎因子有望成为DN及其他炎症性疾病新的治疗靶标之一。 炎症以炎症细胞浸润、黏附分子、炎症趋化因子和致炎因子表达增强、C反应蛋白(C-reactive protein,CRP)水平升高为特征。通过知识演进图谱,可以了解一下C反应蛋白的研究历史:
如果想进一步了解有关C反应蛋白的高影响因子 论文或者高被引次数论文,可以选择高IF论文和 高TC论文按钮。 1983年最早一篇关于 C反应蛋白的文献 C-Reactive Protein
1994年发表的 一篇高影响因子文献 C-Reactive Protein
2003年发表的一篇高被引频次文献,已被引用了261次, 是该领域的经典文章,想了解该领域不可不看 C-Reactive Protein
如果您更关心目前有哪些药物用于DN 的治疗,可以使用知识演进图谱中的 “设置”功能,对检索结果进行 4个方面的限定(过滤) 发文量 时间
年份过滤 按出现频次及突变率过滤,并可以区分加权 主题词分类过滤 副主题词过滤 因为,我们要了解就有哪些药物可治疗该病症,因此,可以勾选“副主题词过滤”中的“therapeutic use”,然后再点击“更多主题词”勾选我们需要了解的相关药物: 如果要了解有哪些药物可以治疗DN,可以勾选“副主题词过滤”中的“therapeutic use”,点击“确定”。同时,在频次突变设置中选择出现频次在20及以上,突变率100%以上,不区分加权,便可选择出较重要的主题词 2017/3/7 21
进入具体药物 选择界面 从上图可以看到,治疗DN的药物主要为Angiotensin-Converting Enzyme Inhibitors(血管紧张素转换酶抑制剂,ACEI);Antihypertensive Agents(抗高血压药);Insulin(胰岛素);Hypoglycemic Agents(降糖药);Angiotensin II Type 1 Receptor Blockers(血管紧张素Ⅱ1型受体拮抗剂,ARB)等,具体的药物有Losartan(洛沙坦);Captopril(卡托普利);Enalapril(依那普利)等。
从发文量看,1965年就有了关于Insulin的报道。1987年出现了第一篇关于ACEI的报道,2000年出现了第一篇关于ARB的报道,从时间上看,Insulin持续在研究和报道,而ACEI在2005年发文量大幅下降之时,正是ARB发文量大幅增长之即,而实际情况也是ARB为该系统的一类新药,与ACEI相比具有许多独到之处。
4.5 共词分析(指纹共词) 共词分析是计算两个主题词在一组文献中 共同出现的篇数,并将其演进路径显示出来的 一种方法。 ARB作为一种新药,如果想进一步了解该药 与DN之间的更多研究,可以使用“指纹共词” 。 方法:进入共词分析界面后,点击“更多 主题词”来选择我们需要分析的具体主题词。 62 2017/3/7
DN与ARB 指纹共词
在更多主题词里,搜索“Diabetic Nephropathies”得到 Angiotensin II Type 1 Receptor Blockers
共词演进图,X轴表示年份,Y轴表示共献次数,点击可查看具体信息 从图中可以看出,ARB与DN同时出现在一篇文献中的时间最早为2002年(9篇),最多是2005年(56篇)。2014年共同出现在同一篇文章的数量为21篇,它们是:
IF 54.42 其中5篇来源于大名鼎鼎的《N Engl J Med》(新英格兰医学杂志),该刊与《Lancet》、《JAMA》均属于世界上最权威的医学期刊,如此多篇幅的报道ARB与DN,提示该方面很有可能成为未来研究的热点。
4.6 知识发现 检索结果小于300
4.7 全文获取服务 对于检索到的文献,可以通过以下3种方式获取 全文。具体步骤是: 1.首先查询是否有馆藏(纸质期刊) 2.若无馆藏则通过“全文链接”查看收录该文 献的数据库名称,若为开放获取数据库或机构 购买了该数据库,则直接点击链接获取全文 3.若以上两条途径均无法获取全文,则可以尝 试利用本地PubMed系统的全文申请功能,通过 馆际互借获取全文 69 2017/3/7
1、首先查询用户所在机构有无馆藏,有则可直接获取,若无,则点击“全文链接”
2.点击“全文链接”,题录下方会出现收录该全文的数据库,若该数据库是开放获取的或机构购买的,则可以直接点击图标获取全文
3.若无,则可以通过本地PubMed系统的全文申请功能获取全文 5.进入“我的文件夹查看全文获取情况” 4.点击申请全文 72 2017/3/7
6.成功获取全文后,点击打开全文即可查看获取到的文献 73 2017/3/7
总结 1.可以对检索结果进行一般的文献计量分析(如作者、 机构、期刊、主题、年代分布等); 2.可以很方便地筛选出高IF期刊发表的论文和高TC的论 文,以及对文献按照影响因子分区进行筛选,方便选择 优质或经典文献; 3.通过知识图谱可以看到相应主题词在特定时间范围内 的变化趋势,进而了解该主题的演进路径; 4.利用共词分析发现相应主题词共现文献的变化情况, 了解相应主题之间内在联系的变化。 5.通过全文申请功能获取相应的全文文献。 74 2017/3/7
取得的成绩 发表于《Diabetes》 (2010年度影响因子8.889) 中对济南泉方的致谢: Acknowledgements We thank all the staff at Jinan Quanfang Science & Technology Co., Ltd., for their bibliographic retrieval service. 发表于《Clin Pharmacol Ther》 (2010年度影响因子6.378) 中对济南泉方的致谢: Acknowledgments We thank all the staff at Jinan Quanfang Science & Technology Co., Ltd., for their bibliographic retrieval service.
感谢聆听! 欢迎提问 76 2017/3/7