Celine Li Thomson Reuters

Slides:



Advertisements
Similar presentations
PROJECT NAME 项目名称 上海xx文化传播有限公司.
Advertisements

第六 章数据库访问页 6.1 数据访问页视图 6.2 创建数据访问页 6.3 编辑数据访问页 6.4 查看数据访问页 退出.
Thomson Data Analyzer 深度洞察行业技术和竞争信息的利器
ISI数据库分析工具功能与使用方法简介 肖仙桃 研究馆员 2017年3月7日.
演讲提纲 ISI Web of knowledge平台上的数字资源 为什么需要分析工具 分析 - 深入分析检索结果
中国专利信息年会 知识产权: 商业战略中的重要组成部分
电大转型社区教育何以可能 华东师范大学终身教育研究中心 主任 教育学部博士生导师 吴遵民教授.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
Add Your Company Slogan
Thomson Data Analyzer使用指南
EndNote Web的使用介绍 ----建立自己的小论文写作平台
基于分析工具的科技发展分析与预测 张帆 Thomson Reuters 2010年12月20日.
永安广播电视大学 学生计算机技能培训 2005年3月26日.
                                                                                                                                                                
利用软件对机构研究、引用行为进行分析 汤姆森科技信息集团 石翡.
Endnote Web的使用 ——如何有效管理参考文献?
如何使用CiteSpace分析Derwent专利数据
Harvard ManageMentor®
快乐写作与投稿---- Endnote Web数据库的有效利用
SVN的基本概念 柳峰
面向对象建模技术 软件工程系 林 琳.
Chinese Virtual Observatory
文献管理软件EndnoteX4及其新功能 学科馆员:张欣利.
第四部分: ISI Proceedings的管理功能
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
网络信息资源获取与管理 第八讲 个人文献管理与利用 ———EndNote basic 授课教师:支晓娟 Tel :
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
科研信息管理工具 Endnote X4 王辉.
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
第17章 网站发布.
教育部技專院校共用性電子資料庫使用教育訓練
数据挖掘工具性能比较.
1085至1125年间的官员地域分布与社会关系 1.
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
Science and technology report service systemUsage method
刘晓琳 产品与解决方案部 汤森路透 2013年2月18日 Thomson Data Analyzer Critical Insight into Competitive and Technical Intelligence TDA是一款由汤姆森集团开发的功能强大的数据挖掘软件产品。我是汤森路透的培训师刘晓琳,接下来我将为大家介绍TDA的主要功能和基本操作。
SOA – Experiment 2: Query Classification Web Service
新PQDT论文全文库提交平台.
ASP New and other UIs: Medical Videos Searchasaurus
模型分类问题 Presented by 刘婷婷 苏琬琳.
SAP Query 建立User Group (SQ03) 建立Infoset (SQ02)
專利資料視覺化分析平台 功能畫面介紹 2015/11/02 資料服務組
2019/4/20 关注NE官方微信,获取更多服务.
2019/4/16 关注NE官方微信,获取更多服务.
VisComposer 2019/4/17.
VB与Access数据库的连接.
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
2019/4/26 关注NE官方微信,获取更多服务.
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
第六章 素材的加工与处理 第13讲 用GoldWave进行音频的截取、合并、淡入淡出操作
Experiment setup Leverage entities in Dbpedia and compute the cohesiveness among the properties used to describe these entities Set up gold standard for.
SCI收录号查询方法介绍 上海大学情报研究所
波形平均和叠加分析指南 上海骐驰仪器有限公司 Shanghai Qichi Instruments Co. Ltd.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
基于列存储的RDF数据管理 朱敏
VB与Access数据库的连接.
第8章 创建与使用图块 将一个或多个单一的实体对象整合为一个对象,这个对象就是图块。图块中的各实体可以具有各自的图层、线性、颜色等特征。在应用时,图块作为一个独立的、完整的对象进行操作,可以根据需要按一定比例和角度将图块插入到需要的位置。 2019/6/30.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
创建、启动和关闭Activity 本讲大纲: 1、创建Activity 2、配置Activity 3、启动和关闭Activity
使用Fragment 本讲大纲: 1、创建Fragment 2、在Activity中添加Fragment
第六讲 酒店客房管理系统(二) 教育部“十二五”职业教育国家规划教材
RefWorks使用指南 归档、管理个人参考文献.
入侵检测技术 大连理工大学软件学院 毕玲.
2019/9/19 互联网产业、立法与网规 张钦坤 腾讯法务部.
百万行、千万行数据查询教程 老黄牛.
Presentation transcript:

Celine Li Thomson Reuters Thomson Data Analyzer Critical Insight into Competitive and Technical Intelligence Celine Li Thomson Reuters

提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据规范/数据结构化 数据分析 生成报告

TDA简介 Thomson Data Analyzer (TDA),是一个具有强大分析功能的文本挖掘软件,可以对文本数据进行多角度的数据挖掘和可视化的全景分析。 TDA能够帮助您从大量的专利文献或科技文献中发现竞争情报和技术情报,为洞察科学技术的发展趋势、发现行业出现的新兴技术、寻找合作伙伴,确定研究战略和发展方向提供有价值的依据。 TDA在数据的导入,数据的清理,数据的分析,和分析结果的报道方面都具有独特的功能。

TDA数据导入 结构化的数据 不同平台 Original Patents DWPI & PCI Web of Science INSPEC Import Engine Editor Original Patents DWPI & PCI Web of Science INSPEC Web of Knowledge Aureka Delphion Dialog Thomson Innovation PatentWeb STN MS Excel 无论是汤姆森公司自身的数据或者商业数据 (可利用 Import Engine Editor导入) 您可以用不同来源的数据创建复合记录以便可以了解某个主题的不同侧面., e.g. 例如将PCI 引文信息复合到DWPI完整记录;将 INSPEC 分类信息复合到Web of Science 引文记录.

数据管理 包括数据特性和数据统计信息 ( Dataset Properties, field statistics) 字段的更名以及增加删除等 (Rename/copy/delete/merge fields) 将当前的数据集拆分 (Create Sub-dataset) 文件的合并 ( Merging files) (Data Fusion) (Record Fusion) 记录的去重与合并 (Dealing with duplicate) 尚在的数据有哪些 数据的命名 数据的合并

数据清理 高质量的数据分析结果首先取决于数据的准确性与完整性 标引的不一致 输入的错误 合并同义词近义词 文献著者或发明人的不同写法 科研机构或专利授权人的不同表达方式 TDA软件内部设有多个叙词表,为您提供快速的自动数据清理的功能,只需点击一个按钮,数据整理工作即可自动完成。 用户还可建立自己的叙词表,对著者/发明人、科研机构/专利申请人/专利授权人、国际专利分类号、等字段加以清理。 原始数据的不一致性,如果对数据不加以整理或合并,在统计分析时就会产生一定程度的误差,进而会影响到整个分析结果的准确性。

数据分析 有效的分析可将无序的数据转化为高附加值的情报 List: 快速排序分析各个字段, 生成各种图表。 List comparison: 对比任何两个列表,揭示其共性或发现某列表的独特性。例如对比分析两个科研机构或两个竞争对手。 Matrices: 通过Co-occurance矩阵,Auto-correlation矩阵, Cross-correlation矩阵, 发现隐含的发展趋势或相关性。 Maps: 通过数据图谱将数据分析的结果可视化,例如将主因素分析、相关性分析的结果以Map的方式表达出来,揭示机构间,科研人员间或各类技术之间的关系。 ,TDA为您提供了一系列的分析功能,帮助您解决所面临的从简单到复杂的各类问题。

分析报告 TDA帮助您快速生成各种报告,为决策者更快做出更好的决策提供依据。只需点击按钮即可生成公司报告、公司间的比较、和对某一技术的深入分析。 Technology Report(分别以技术/机构/发明人为参照点考量新出现的/消失的/量最大的/独特的技术分布报告) Top Assignees ( DWPI only,前25位专利权属人Derwent 分类/发明人分析报告) Trend Analysis (DWPI only,从技术、市场、专利权人的角度,分析Derwent分类/Derwent手工代码/IPC号对应年份出现的新旧比例,显示技术发展趋势)

提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告

案例: 3G通信行业专利分析 (The 3rd Generation ) 3G,全称为3rd Generation,中文含义就是指第三代数字通信。 1995年问世的第一代模拟制式手机(1G)只能进行语音通话;1996到1997年出现的第二代GSM、TDMA等数字制式手机(2G)便增加了接收数据的功能,如接受电子邮件或网页;第三代与前两代的主要区别是在传输声音和数据的速度上的提升,它能够在全球范围内更好地实现无缝漫游,并处理图像、音乐、视频流等多种媒体形式,提供包括网页浏览、电话会议、电子商务等多种信息服务,同时也要考虑与已有第二代系统的良好兼容性。为了提供这种服务,无线网络必须能够支持不同的数据传输速度,也就是说在室内、室外和行车的环境中能够分别支持至少2Mbps(兆比特/每秒)、384kbps(千比特/每秒)以及144kbps的传输速度。(此数值根据网络环境会发生变化)。

总体技术发展趋势宏观分析 技术领域内重要的专利权人 (专利权人名称) 地区覆盖范围 (国家、地区) 地区覆盖范围 (国家、地区) 创新性活动进展 – 时间序列分析 (优先权年,最近15年) 排名靠前的专利申请者的地区分布 (Top30) 排名靠前的专利申请者其专利申请活动的时间分布(最近15年) 技术发展趋势(时间分布、地区分布、专利权人分布)(Manual Code、NLP words、 热点技术(时间分布、地区分布、专利权人分布) 高影响力专利

检索相关专利——分析数据源的获取

数据下载

数据导入

将字段拆开 例如abstract 拆开

Novelty:描述发明的独特性 Use 这个发明在不同技术领域中的应用状况 专利家族

DWPI Abstract 的价值 Novelty (Abstract-DWPI Novelty/NOV): 描述发明的独特性. Detailed Description (Abstract-DWPI Detailed Desc/DTD): 当在Novelty字段无法总结发明主要的权利主张时,摘要中会出现此字段。 Activity (Abstract-DWPI Activity/ACT): 用于描述生物体或者化合物的生物活性 Mechanism (Abstract-DWPI Mechanism/MEC): 描述化合物或者生物体的生物机理. Use (Abstract-DWPI Use/USE): 包括该发明在不同技术领域的使用(应用). If there are no disclosed uses, this is stated. Advantage (Abstract-DWPI Advantage/ADV): 包括由发明人所陈述的发明优势. Tech Focus (Abstract-DWPI Tech Focus/FOC): 描述该发明包含的核心技术领域以外的技术。Technology Focus Abstract is used to group information concerning how the invention is carried out into the technology area(s). Drawing Description (Abstract-DWPI Drawing Desc/DRW): 记录中所包括的技术图示的解释  

数据管理 数据集拆分 字段的更名 数据集拆分 文件的合并 记录的去重合并

将来自不同数据源的数据进行合并分析

提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告

数据清理/数据结构化 高质量的数据分析结果首先取决于数据的准确性与完整性: 清理数据的方法包括: 让数据的差异性最小 尽量减少词汇的拼写差异、或者同义词等 清理数据的方法包括: List Cleanup- 机器辅助识别并聚类相似的术语 Thesauri- 按照规则识别并聚类类似的术语 Groups— 在一个字段中标记类似的术语,同时可保留条目细节 Classifications- 手工将记录分类到用户制定的分类中

数据清理/数据结构化 数据规范/数据结构化 为什么要规范数据: Alloy, alloys; “human-computer interaction” and “human computer interaction” ;单数/复数变化;拼写错误;美式/英式拼写;公司名称/机构的不同书写格式的不同;

预制的清理数据脚本,规范数据,生成(DWPI only): Derwent数据的自动清理工具 预制的清理数据脚本,规范数据,生成(DWPI only): Assignee (cleaned); Inventor ( Cleaned); IPC (Cleaned); Derwent Class (Cleaned)

数据清理之: List Cleanup TDA 可以将同义词/等同词等加以区分; 当使用List Cleanup工具时, 您在使用文件名后缀为 .fuz 的文件对数据进行清理. 最常用的模糊匹配文献包括: 机构(Affiliation ) - 可用于公司/机构字段,忽略常用的机构标志词 (e.g. Corp, AG, KK, Ltd) 作者(Author )-用于作者字段; 发明人(Inventor )-用于发明人字段; 一般(General )-可用于所有的文本字段, e.g. cleaning NLP text fields

利用List Clean up清理数据

相同专利权人的合并 (光标拖动放在相应名称下即可)

将不应该归并的数据从组中去除(选中数据并采用右键)

恢复继续清理

将清理结果保存为叙词,用于今后数据清理

使用叙词帮助信息清理

数据清理之: Thesaurus-- 叙词表 您可以对一张数据列表利用叙词进行清理 您可以自己编辑叙词表 可以手工拖拽生成叙词表 当在Cleanup Confirm 对话框内点击 Save As Thesaurus 或者利用Groups创建叙词后 (Menu item Groups and Create Thesaurus using Groups ...) 再选择已存在的叙词文件 (*.the), 您就可以将叙词表合并到一个已有的叙词表里

Insert Major Item/Insert Sub Iterm

数据清理之Group 数据列表中的项目可以被标记到一个集合或者一个组之中 分组功能对于减少共现矩阵的大小非常有帮助 将数据集合中的数据提取出来形成一个新的数据集合并对其加以定义.

形成Top30专利权人组成(选中并用右键)

比较不同国家专利量

提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告

数据分析 List:一维分析 矩阵分析:二维分析 Map:最好利用分过组的数据进行分析 预制的分析模块 :三维分析/分析报告

地区覆盖 ( 专利申请国一维分析) 右键选择数据拷贝并做图

共现值高于或者低于期望的数值很多时,将会出现一个期望值显示箭头 箭头的表示共现值与期望之差距的大小 没有箭头则表明这个数值与期望值没有太大偏差 绿色向上的箭头表示共现值大于预期 红色向下箭头表示数值低于预期.

二维矩阵分析

矩阵分析的类型: 同现矩阵(Co-occurrence Matrix):寻找同时出现在两个矩阵参数中的记录 自相关系数矩阵(Auto-Correlation Matrix) :利用矩阵分析在相同的字段中,寻找关系密切的项目。如寻找合作密切的公司、发明人,自相关系数矩阵只适用于有多个数值的字段。 互相关系数矩阵(Cross-Correlation Matrix):利用矩阵分析在不同字段中,寻找关系密切的项目。如在相同领域研发相似的专利权人

同现矩阵(Co-occurrence Matrix)

时间序列分析 (优先权年)(共现矩阵)

总体技术发展趋势宏观分析 地区覆盖范围 (国家、地区) 创新性活动进展 – 时间序列分析 (优先权年,最近15年) 地区覆盖范围 (国家、地区) 创新性活动进展 – 时间序列分析 (优先权年,最近15年) 专利权人趋势 (专利权人名称) 排名靠前的专利申请者的地区分布 (Top30) 排名靠前的专利申请者其专利申请活动的时间分布(最近15年) 技术发展趋势(时间分布、地区分布、专利权人分布)(Manual Code、NLP words、 热点技术(时间分布、地区分布、专利权人分布)

排名靠前的专利申请者的地区分布 (Top30)

排名靠前的专利申请者其专利申请活动的时间分布(最近15年)

技术发展趋势(不同公司的技术发展侧重点)

技术发展趋势(随年代的变化)

热点技术(时间分布、地区分布、专利权人分布)

Map类型: 自相关系数地图(Auto-Correlation Map) 在相同的字段中,寻找关系密切的项目。如寻找合作密切的公司、发明人、国家。 互相关系数地图(Cross-Correlation Map) 在不同字段中,寻找关系密切的项目。如寻找哪些公司在相同的研发领域关系密切。 主成分地图 (Factor Map) 寻找经常共同出现在相同专利文献的项目,比如经常相伴出现的词(NLP);经常相伴出现的发明人;IPC;Manual Code,聚成词簇。

Auto-Correlation Maps 自相关关系图显示一张数据表中各个条目的相互关系。例如:一个作者自相关关系图可以显示在一起写作的团队成员。一个叙词的自相关关系图将可以因在同一记录中被使用显示它们之间的高度相关性。 注意: 对于自相关地图而言, 您应该选择那些在绝大多数记录中都含有多个数据的字段.例如, 作者或者叙词等都是好的选择. 出版日期则不应选择,因为每条记录只有一个出版日期.

提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告

Clean:Combine Author Networks(发明人聚组) Clean:DWPI Clean Up ( DWPI Only) Export: Fro Aureka.vpm(生成可以导入Aureka的数据文件,记录之间以***TDA***) Export: Groups to Excel(将“组”导出到Excel) Export: Groups to Text (将“组”导出到Text) Export: Records to Excel (DWPI Only,将记录中预选好的字段导入Excel) Export: Records to Word (DWPI Only,将记录中预选好的字段导入Word) Export: Records to Word,将记录导出到Word) Report: Basic Report (DWPI Only,专利数位居前十位的专利权属人报告) Report: Company Comparison(2个或5个公司间的相互比较报告,相互间比较项目可以选择) Report: Company Report(报告:公司/发明人/年代/国家/技术,分析数据只来自一个机构) Report: IPC based Analysis ( DWPI Only,前10位专利权属人相关IPC相对Basic Patent Year的分析报告) Report: Make Pivot Chart in Excel(生成二维矩阵分析相应的数据透视表) Report: Plot List in Excel(将List中选定的数据复制到表格中,并自动生成柱形图) Report: Plot Matrix In Excel(将选定的二维矩阵分析复制到表格中,并自动生成三维图、柱形图、折线图) Report: Sum of Matrix Columns (将选定的二维矩阵分析表格中分析元素的列数与行数进行统计) Report: Technology Report(以技术/机构/发明人为参照点考量新出现的/消失的/量最大的/独特的技术分布报告) Report: Term By All Years(所有年份出现的词汇分析报告) Report: Term by First Year(词汇第一次出现的年份分析报告) Report: Term by last Year(词汇最后一次出现的年份分析报告) Report: Top Assignees ( DWPI only,前25位专利权属人Derwent 分类/发明人分析报告) Report: Trend Analysis (DWPI only,从技术、市场、专利权人的角度,分析Derwent分类/Derwent手工代码/IPC号对应年份出现的新旧比例,显示技术发展趋势)

Report: Company Comparison(2个或5个公司间的相互比较报告,比较项目可以选择)

Tech Report

提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告

http://www.thomsonscientific.com.cn/

Thank You! 北京市海淀区科学院南路2号 融科资讯中心C座北楼610室 汤森路透科技与医疗集团中国办事处 李慧美 技术支持邮箱: ts.support.china@thomsonreuters.com Tel: 010-57601212 Fax: 01082862088