聚类分析在机构知识库建设中的作用 郑友红 北京唯博赛科技有限公司 2017/2/26.

Slides:



Advertisements
Similar presentations
从 PubMed 到 PubMedPlus 课题辅助分析与智能选刊投稿 北京唯博赛科技有限公司 祖传辉 手机 : —— 大数据科研分析利器、学科服务工具.
Advertisements

厅直属单位卫生科技工作 座谈会 卫生高级专业技术资格申报评审 政策解读和工作要求
2015年工作总结及2016年工作计划 建筑环境与能源应用工程系 2015年1月6日.
农学院 学年 工作总结及下学年重点工作.
联系电话: 联 系 人:李爱玲 中国人文社会科学文献(CASHL)传递 联系电话: 联 系 人:李爱玲
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
图书馆电子资源.
The Graduation Thesis Defense
随身携带的图书馆 ——移动图书馆服务介绍 主讲人:陈洋阳.
人大复印资料全文数据库 人大复印资料全文数据库选辑1995年至今公开发表的人文科学和社会科学中各学科、专业的重要论文和重要动态资料的全部原文。其信息资源覆盖了人文科学和社会科学领域国内公开出版的3000多种核心期刊、专业期刊和报纸,分4大类100多个专题。
职称:***(博导、教授、副教授、讲师)
2013年临床科室述职报告.
中国博士后科学基金 交流体会.
荆楚理工学院 申请学士学位授权单位 自 评 报 告 荆楚理工学院:吴麟章
姓 名 出生年月 所在学科 最高学历/位 专业 毕业学校 成果内容 本人业绩 (一)教学内容
Add Your Company Slogan
素材 资源 库 文字 图形 图像 声音 动画 视频 人力 物力 财力 获取素材的渠道 数据库.
2.3 网络域名及其管理.
臺北科技大學 新進人員研習  研究發展處 宣導資料.
PubMed分面检索与聚类分析系统 北京唯博赛科技有限公司 郑友红.
不一样的PubMed---Pubmedplus
如何利用互联网的英语学习资源.
PubMedplus- 不一样的pubmed
百链 1.
有机所文献利用快速指南 平台入口: 图书馆网站 文献、数据检索:
如何使用CiteSpace分析Derwent专利数据
单击此处添加标题.
管理信息结构SMI.
数 控 技 术 华中科技大学机械科学与工程学院.
用户如不能得到原始文献或原文复印件,通过先进手段迅速检索到的医学信息就毫无价值!
Seminar 【Speaker】 Benjamin Chiao, School of Information
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
2018 北京大学汇丰商学院 日期:
「前世的五百次回眸換得今生的一次擦肩而過」~席慕蓉 有緣千里來相聚 歡迎學弟妹來到經國建研所
Science and technology report service systemUsage method
美国数学学会 MathSciNet 电子资源的检索和使用
如何查询影响因子 北京师范大学图书馆
The Graduation Thesis Defense
NoteExpress进阶 宋敏 电子资源部
CALIS共享资源推介.
毕业论文答辩 答辩学生:宝藏PPT 指导老师:XXX.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
如何查询论文的收录号?.
2019/4/20 关注NE官方微信,获取更多服务.
2019/4/16 关注NE官方微信,获取更多服务.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
2019/4/26 关注NE官方微信,获取更多服务.
河北大学申请博士生导师 人员基本情况 彩色照片 小二寸 免冠 一、近五年科研项目情况 姓名:张 芳 出生日期: 职称:
SAGE-移动终端授权 ----校外访问SAGE资源 北京办公室 1.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
中国风背景论文答辩模板 某大学某某信息学院 答辩学生:代用名 指导老师:代用名 答辩时间:201X年1月30日
Seminar 【Speaker】 LEI ZHANG, Assistant Professor of
北京中科进出口有限责任公司 PQDT论文全文库检索平台.
Seminar 【Speaker】 Chung-Ming Kuan, Visiting Professor,
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
SCI收录号查询方法介绍 上海大学情报研究所
SpringerLink数据库使用说明 上海师范大学图书馆
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
金融支持精准扶贫 基于激励机制的一个设计 李鑫 刘乾坤 中国人民银行绵阳市中心支行.
浅谈医生灰色收入 第三小组.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.

Seminar 【Speaker】 Soohyung Lee, Department of
Seminar 【Speaker】 Janet Currie, Professor of
RefWorks使用指南 归档、管理个人参考文献.
北京大学医学部 机构知识库建设 北京大学医学图书馆.
超星电子书 让更多的人读更多的书.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

聚类分析在机构知识库建设中的作用 郑友红 北京唯博赛科技有限公司 2017/2/26

提纲 背景 机构知识库建设中面临的问题 解决之道 机构聚类准确获取机构文献 学系聚类准确获取学系文献 作者聚类精准获取个人文献

背景 世界范围内机构知识库火热建设中 收集整理并长期保存机构成员所产生的学术成果,并为机构的教学、科研、医疗工作服务 集中展示机构总的研究成果,提升高校及科研人员的学术影响和地位 OA模式消除价格和许可壁垒,促进学术资源的便捷获取和自由使用,再造网络环境下学术交流和传播的机制和模式

机构知识库建设中面临的问题 数据清洗和规范是最大问题 特别是在建库初期,如何将海量的文献准确检索获取并准确地分配到正确的大学(机构)—学院(附属医院)—学系(临床科室)—个人,是一个艰巨的任务 原因很明确:收录与文献数据库中的机构成果描述不规范,署名单位不规范、同机构多头衔、地址笔误和错漏、同姓名的不同作者、不同姓名英文缩写相同的不同作者、频繁跳槽的学者(学术迁徙)……

机构知识库现状 目前很多机构库无法投入正常使用,或者没有被最终用户接纳。 系统制造商交付机构知识库时,大多仅完成中文数据的处理。 英文等其他文种资源,仅搭建框架,由机构方、图书馆、作者上传数据,但没有达到理想的状态。

解决之道 基于语义挖掘和社会网络分析的文献聚类技术可以很好地解决这个问题 基本原理:语义挖掘、社会网络分析 PubMedplus是本公司运用这个技术研制的医学文献聚类分析数据库。 PubMedplus是一个基于Pubmed全部数据开发的,提供多项目多层次多重文献聚类分析的学术评价工具,既可以对单一学校、医院或个人进行学术评价,也可对多个机构进行横向竞争力评价。 PubMedplus中的评价数据均是通过上述聚类技术获取,具有高度的精准性。

机构聚类准确获取机构文献 示例 目的:查全北京大学的全部文献,并准确 区分二级单位的文献 输入:peking university 聚类项:大陆机构

机构聚类准确获取机构文献

科系聚类准确获取科系文献 示例 目的:获取各学系以第一作者身份发表的文献 操作:聚类 大陆机构后,点击 大学的名称; 或使用 Pubmedplus规范化的名称进行检索如: “北京大学校本部"[中国机构] 聚类项:先聚类大陆机构,再切换科系。

科系聚类准确获取各科系文献

已经完成被Pubmed收录超过10篇文献的所有机构

作者聚类精准获取个人文献 示例 目的:音同字不同的不同作者聚类 输入:wang wei(王伟、王炜、王薇、王微……) 聚类项:大陆著者

作者聚类精准获取个人文献 示例 目的:区分不同机构的同名作者 输入:zhang yan(张燕) 聚类项:大陆著者

作者聚类精准获取个人文献 示例 目的:区分同机构的同名作者 输入:zhao jun(赵军) 聚类项:大陆著者

Pubmedplus

举例:作者聚类,不同机构的同名作者

作者聚类精准获取个人文献 示例 目的:反映作者的学术迁徙状况 输入:zhou qinghua(周清华) 聚类项:大陆著者

举例:作者聚类,作者的迁徙历史

作者聚类精准获取个人文献 示例 目的:院系科室差异的同一作者聚类 输入:cao xuetao(曹雪涛) 聚类项:大陆著者

Pubmed中大部分文献仅标明第一作者机构,通过作者社会网络分析可以得到其他作者的准确机构信息

作者聚类:不需要写对机构名称

作者聚类精准获取个人文献 示例 目的:英文姓名变异的同一作者文献聚类;如 han q(han q,han qd,han c)韩启德 操作:搜索han qd,聚类大陆作者,点击韩启德;或直接搜 "韩启德;北京大学第三医院/14695487SN2"[中国作者] 聚类项:大陆作者

国外数据库未能对作者规范化处理:SCI sci

国外数据库未能对作者规范化处理:researchgate https://www. researchgate sci

国内数据库对同机构同名作者的甄别尚有欠缺:1 sci

国内数据库对同机构同名作者的甄别尚有欠缺:2 sci

机构+院系+作者名称的方式可操作性差 机构佚名:北京肿瘤医院;北京大学肿瘤医院;北京市肿瘤防治研究所 科室不统一:外科;外二科;胃肠外科;结直肠外科;胃肠外二科; 英文作者名称不统一:zhao,j;zhao,jun 只能通过大规模的社会网络分析才能解决

语义挖掘与社会网络分析聚类: 作者聚类的原理 不是简单的机构+作者 通过全面分析了Pubmed文献的主题词、标题文摘内容,化学物质、作者名称、合作者、期刊分类分区、机构信息、科室等信息,通过社会网络分析技术使得一位作者一个唯一ID得以在Pubmedplus实现。

SCI数据的规范要比Pubmed容易很多 Pubmed的机构地址使用全称,SCI的机构地址使用缩写。 这种方法对其他数据库依然有效 Pubmed与SCI数据的清洗和规范 SCI数据的规范要比Pubmed容易很多 Pubmed的机构地址使用全称,SCI的机构地址使用缩写。 Pubmed大量文献仅标明第一作者机构,其他作者机构只能靠分析获得;SCI文献大多为每位作者标明了一个或多个机构。 Pubmed和SCI文献均有大量文献没有标明明确的学院和科系。

结语 聚类技术可以用于机构知识库建设,保证机构知识库建设的质量 聚类技术可应用于任何文献资料集(包括中文文献、SCI文献,需要用户提供原始数据),有效实现聚类分析和学术评价

谢谢大家! 敬请批评指正!