聚类分析在机构知识库建设中的作用 郑友红 北京唯博赛科技有限公司 2017/2/26
提纲 背景 机构知识库建设中面临的问题 解决之道 机构聚类准确获取机构文献 学系聚类准确获取学系文献 作者聚类精准获取个人文献
背景 世界范围内机构知识库火热建设中 收集整理并长期保存机构成员所产生的学术成果,并为机构的教学、科研、医疗工作服务 集中展示机构总的研究成果,提升高校及科研人员的学术影响和地位 OA模式消除价格和许可壁垒,促进学术资源的便捷获取和自由使用,再造网络环境下学术交流和传播的机制和模式
机构知识库建设中面临的问题 数据清洗和规范是最大问题 特别是在建库初期,如何将海量的文献准确检索获取并准确地分配到正确的大学(机构)—学院(附属医院)—学系(临床科室)—个人,是一个艰巨的任务 原因很明确:收录与文献数据库中的机构成果描述不规范,署名单位不规范、同机构多头衔、地址笔误和错漏、同姓名的不同作者、不同姓名英文缩写相同的不同作者、频繁跳槽的学者(学术迁徙)……
机构知识库现状 目前很多机构库无法投入正常使用,或者没有被最终用户接纳。 系统制造商交付机构知识库时,大多仅完成中文数据的处理。 英文等其他文种资源,仅搭建框架,由机构方、图书馆、作者上传数据,但没有达到理想的状态。
解决之道 基于语义挖掘和社会网络分析的文献聚类技术可以很好地解决这个问题 基本原理:语义挖掘、社会网络分析 PubMedplus是本公司运用这个技术研制的医学文献聚类分析数据库。 PubMedplus是一个基于Pubmed全部数据开发的,提供多项目多层次多重文献聚类分析的学术评价工具,既可以对单一学校、医院或个人进行学术评价,也可对多个机构进行横向竞争力评价。 PubMedplus中的评价数据均是通过上述聚类技术获取,具有高度的精准性。
机构聚类准确获取机构文献 示例 目的:查全北京大学的全部文献,并准确 区分二级单位的文献 输入:peking university 聚类项:大陆机构
机构聚类准确获取机构文献
科系聚类准确获取科系文献 示例 目的:获取各学系以第一作者身份发表的文献 操作:聚类 大陆机构后,点击 大学的名称; 或使用 Pubmedplus规范化的名称进行检索如: “北京大学校本部"[中国机构] 聚类项:先聚类大陆机构,再切换科系。
科系聚类准确获取各科系文献
已经完成被Pubmed收录超过10篇文献的所有机构
作者聚类精准获取个人文献 示例 目的:音同字不同的不同作者聚类 输入:wang wei(王伟、王炜、王薇、王微……) 聚类项:大陆著者
作者聚类精准获取个人文献 示例 目的:区分不同机构的同名作者 输入:zhang yan(张燕) 聚类项:大陆著者
作者聚类精准获取个人文献 示例 目的:区分同机构的同名作者 输入:zhao jun(赵军) 聚类项:大陆著者
Pubmedplus
举例:作者聚类,不同机构的同名作者
作者聚类精准获取个人文献 示例 目的:反映作者的学术迁徙状况 输入:zhou qinghua(周清华) 聚类项:大陆著者
举例:作者聚类,作者的迁徙历史
作者聚类精准获取个人文献 示例 目的:院系科室差异的同一作者聚类 输入:cao xuetao(曹雪涛) 聚类项:大陆著者
Pubmed中大部分文献仅标明第一作者机构,通过作者社会网络分析可以得到其他作者的准确机构信息
作者聚类:不需要写对机构名称
作者聚类精准获取个人文献 示例 目的:英文姓名变异的同一作者文献聚类;如 han q(han q,han qd,han c)韩启德 操作:搜索han qd,聚类大陆作者,点击韩启德;或直接搜 "韩启德;北京大学第三医院/14695487SN2"[中国作者] 聚类项:大陆作者
国外数据库未能对作者规范化处理:SCI sci
国外数据库未能对作者规范化处理:researchgate https://www. researchgate sci
国内数据库对同机构同名作者的甄别尚有欠缺:1 sci
国内数据库对同机构同名作者的甄别尚有欠缺:2 sci
机构+院系+作者名称的方式可操作性差 机构佚名:北京肿瘤医院;北京大学肿瘤医院;北京市肿瘤防治研究所 科室不统一:外科;外二科;胃肠外科;结直肠外科;胃肠外二科; 英文作者名称不统一:zhao,j;zhao,jun 只能通过大规模的社会网络分析才能解决
语义挖掘与社会网络分析聚类: 作者聚类的原理 不是简单的机构+作者 通过全面分析了Pubmed文献的主题词、标题文摘内容,化学物质、作者名称、合作者、期刊分类分区、机构信息、科室等信息,通过社会网络分析技术使得一位作者一个唯一ID得以在Pubmedplus实现。
SCI数据的规范要比Pubmed容易很多 Pubmed的机构地址使用全称,SCI的机构地址使用缩写。 这种方法对其他数据库依然有效 Pubmed与SCI数据的清洗和规范 SCI数据的规范要比Pubmed容易很多 Pubmed的机构地址使用全称,SCI的机构地址使用缩写。 Pubmed大量文献仅标明第一作者机构,其他作者机构只能靠分析获得;SCI文献大多为每位作者标明了一个或多个机构。 Pubmed和SCI文献均有大量文献没有标明明确的学院和科系。
结语 聚类技术可以用于机构知识库建设,保证机构知识库建设的质量 聚类技术可应用于任何文献资料集(包括中文文献、SCI文献,需要用户提供原始数据),有效实现聚类分析和学术评价
谢谢大家! 敬请批评指正!