Download presentation
Presentation is loading. Please wait.
Published byStewart Ellis Modified 5年之前
1
刘晓琳 产品与解决方案部 Angelina.liu@thomsonreuters.com 汤森路透 2013年2月18日
Thomson Data Analyzer Critical Insight into Competitive and Technical Intelligence TDA是一款由汤姆森集团开发的功能强大的数据挖掘软件产品。我是汤森路透的培训师刘晓琳,接下来我将为大家介绍TDA的主要功能和基本操作。 刘晓琳 产品与解决方案部 汤森路透 2013年2月18日
2
大纲 有机高分子太阳能电池文献分析案例 有机高分子太阳能电池专利分析案例 TDA概述 TDA功能介绍 数据导入 数据管理 数据清理 数据分析
生成报告 TDA的基础培训分为五个部分,今天的培训包括TDA的介绍和TDA数据导入功能。
3
太阳能电池案例 数据库:Web of Science
检索式:TS=organic near/3 polymer* near/3 "solar cell*" 检索结果共342篇
4
作者论文的被引次数区间 纵坐标代表在有机太阳能电池领域发文量超过4篇的作者列表 横坐标代表论文被引用次数的区间。
哪些作者发文量大而且质量高? 哪些作者的论文被引用次数低?
5
科研机构公开文献的学科分布
6
作者间互相关地图 节点:发文量前十的作者 连线:关键字的相似程度
7
发文量最高的9个科研机构合作情况 Johannes Kepler Univ Linz Tech Univ Denmark
Chinese Acad Sci Univ London Imperial Coll Sci Technol & Med IMEC Korea Inst Sci & Technol Univ Calif Santa Barbara Eindhoven Univ Technol Hasselt Univ
8
大纲 有机高分子太阳能电池文献分析案例 有机高分子太阳能电池专利分析案例 TDA概述 TDA功能介绍 数据导入 数据管理 数据清理 数据分析
生成报告 TDA的基础培训分为五个部分,今天的培训包括TDA的介绍和TDA数据导入功能。
9
一键式报告 公司比较报告 技术报告
10
大纲 有机高分子太阳能电池文献分析案例 有机高分子太阳能电池专利分析案例 TDA概述 TDA功能介绍 数据导入 数据管理 数据清理 数据分析
生成报告 TDA的基础培训分为五个部分,今天的培训包括TDA的介绍和TDA数据导入功能。
11
TDA简介 Thomson Data Analyzer (TDA),是一个具有强大分析功能的文本挖掘软件,可以对文本数据进行多角度的数据挖掘和可视化的全景分析。 TDA在数据的导入,数据的清理,数据的分析,和分析结果的报道方面都具有独特的功能。 TDA能够帮助您从大量的专利文献或科技文献中发现竞争情报和技术情报,为洞察科学技术的发展趋势、发现行业出现的新兴技术、寻找合作伙伴,确定研究战略和发展方向提供有价值的依据。 TDA是一款具有强大分析功能的数据挖掘工具,它不仅能够对文本数据进行多角度的挖掘,而且提供了各种可视化的分析工具,协助企业的情报人员、学校的科研人员从海量的专利数据或科技文献中提取竞争情报和技术情报,为科学研究、战略决策提供有价值的参考依据。
12
TDA的主要功能 TDA – 单机版本 TDA的主要功能包括数据的: 导入 Import 清理 Clean 分析 Analyze
报告 Report TDA是一款单机版软件,需要安装在本地计算机中。 使用TDA分析数据的步骤包括以下四步骤,首先应当将数据导入到TDA中,TDA提供多种数据导入的方式,方便用户将来自不同数据源的具有不同格式的数据导入到TDA,然后利用TDA的数据清理工具对导入的数据进行归并或去重等清理操作,接下来利用TDA的可视化分析工具对清理过的数据进行分析,或者利用TDA的一键式生成报告功能获得预定模版的分析报告。
13
TDA的界面 命令栏 工作区 关键词 标题浏览 详情窗口 分析导览 详情窗口
TDA的界面被分为几个功能区,左上角的标题浏览窗口显示用户选定的项目的标题,双击标题,用户即可查看项目的完整信息。左下角是TDA提供的在线帮助链接。右上角是关键词窗口,在这里用户可以将关键词标记为不同颜色,在查看全文时能够方便快速地找到感兴趣的内容。右边中间的窗口是特定字段的详情窗口,图例中显示了德温特手工代码的预期值。右下角的详情窗口显示了优先权国家的饼图。这些字段可以通过窗口上方一行的下拉菜单来更改。中间的部分是TDA的工作区,用户在这个区域可以对数据进行分析处理,并查看结果。上方一行是TDA的命令栏,提供了多个分析功能和一键式报告的快捷按钮。后面的培训将会告诉我们如何使用这些按钮。 分析导览 详情窗口 工作区
14
在view中可以选择显示或关闭相应的窗口
TDA的菜单栏 在view中可以选择显示或关闭相应的窗口 TDA菜单栏中的view中可以显示或关闭左右两边的窗口。
15
TDA的帮助文件 在命令栏中有一个问号按钮,这是TDA的帮助文件按钮。TDA提供详细的帮助文件,用户可以从中学到更多高级使用技巧。
16
大纲 有机高分子太阳能电池文献分析案例 有机高分子太阳能电池专利分析案例 TDA概述 TDA功能介绍 数据导入 数据管理 数据清理 数据分析
生成报告 TDA的基础培训分为五个部分,今天的培训包括TDA的介绍和TDA数据导入功能。
17
数据导入 Thomson Data Analyzer
TDA 独立于任何数据库的分析软件 数据从商业性数据库和内部数据库中导出后, 导入TDA TDA自动识别每条记录和每个字段 1. Import 2. Clean 3. Analyze 4. Report 使用TDA的第一步是将数据导入到TDA中,由于TDA是一个独立于任何数据库的分析软件,它可以接受来自各种数据库的数据并自动识别每条记录。
18
多来源数据导入 系统默认支持数据库 Excel 自定义数据 Thomson Innovation
目前TDA默认的数据库包括市面上知名的多款数据库产品,另外TDA还提供Excel格式的数据导入过滤器。用户甚至还可以为自己的数据创建数据导入过滤器。
19
从数据库中将数据导出保存
20
初次使用TDA的用户需要选择导入数据的方式
在首次使用TDA时,系统会提示用户选择导入数据的方式。初始用户适合使用第一种方式IMPORT WIZARD,因为它将数据导入分为三个简单的步骤。 初始用户推荐使用IMPORT WIZARD
21
从Import Wizard导入原始数据文件
导入TXT格式的数据 选择import wizard的话,会出现开始对话框。这里,可以选择导入原始数据文件、数据库表格、或者已经存在的TDA文件。
22
导入原始数据文件的第一步
23
导入原始数据文件的第二步
24
下载TDA预设过滤器 下载过滤器\宏\叙词表
25
导入原始数据文件的第三步
26
从Import Wizard导入数据库表格
导入Excel或Access数据 每次打开TDA,都会出现开始对话框。这里,可以选择导入原始数据文件、数据库表格、或者已经存在的TDA文件。
27
导入数据库表格的步骤
28
从Import Wizard导入已存在的TDA文件
导入后缀为VPT的数据 每次打开TDA,都会出现开始对话框。这里,可以选择导入原始数据文件、数据库表格、或者已经存在的TDA文件。
29
导入数据的另一个入口:从菜单栏导入数据
30
用户可以在工具选项中修改导入数据的方式
31
将Import Data中的选项改为Classic Interface
32
修改导入数据的方式之后从文件中导入原始数据
33
出现Classic Interface导入数据的模式
34
在导入数据之后还可以追加导入更多次级字段
35
选择更多导入字段
36
数据导入功能总结 用户在导入数据时的三个步骤 选择导入数据的模式 选择导入的数据库或过滤器 选择导入的字段
37
保存数据
38
现场演示
39
大纲 有机高分子太阳能电池文献分析案例 有机高分子太阳能电池专利分析案例 TDA概述 TDA功能介绍 数据导入 数据管理 数据清理 数据分析
生成报告 TDA的基础培训分为五个部分,今天的培训包括TDA的介绍和TDA数据导入功能。
40
TDA的数据管理 字段管理 文件合并 处理重复数据 TDA的数据管理功能主要指字段管理、文件合并以及重复数据的处理。
41
字段管理 什么是原始文件? 什么是数据集? 什么是记录? 什么是字段?
在开始介绍字段管理的具体操作之前,我希望你们了解TDA是如何处理导入的文本数据的。 用户将数据库中检索到的结果导入到TDA之后,TDA会自动预处理导入的文本: 1、首先,文本被分割为单独的记录。原始数据文件包含若干条记录,例如,几百条或者可能几千条记录。每一条记录具有相似的结构。 2、然后,每条记录被分成若干字段。每条记录包含相同的字段结构(比如,每条记录都包括标题、作者、摘要三项内容,他们就构成了相似的字段结构,其中标题、作者摘要就代表了不同的字段)。偶尔,一条记录可能会缺少某些字段。这就导致记录某些字段的覆盖率不足100%。比如,刚才的例子中,有些记录缺少作者字段的值,那么作者字段的覆盖率就低于100%。 3、接下来,文本字段还会被进一步切割为词或者短语,并且为切割后的值创建字段。 4、最后,TDA会创建与全部记录的全部字段内容相关的数据集合。在数据集合中,字段中的值将与每条记录相对应。 现在,我们就可以回答左边的问题了。原始文件就是从数据库中导出的文本,也是输入到TDA的文本文件。数据集就是文本被导入到TDA后,由TDA生成的数据集合。记录是文本被分割后,具有相似结构的文本段落。字段是记录中相似的字段结构。
42
在菜单栏的字段中选择操作 字段管理命令包括: 重命名、复制、删除与合并
43
字段管理窗口 合并标题和摘要
44
合并 不同数据库的数据 接下来我们介绍TDA的数据合并功能。 TDA提供了两种合并方式: 1.Data fusion
2. Record fusion
45
Data Fusion 合并两个集合生成第三个集合 第三个集合是两个原始集合全部字段的合集 适用于合并不相似的数据
数据合并的用处: 1.合并相同数据来源的数据,用于不同时间段数据的追加或者不同检索结果的合并,例如合并2011年和2012年的检索结果。 2.合并不同数据库来源数据,用于弥补单一数据的不足,例如合并科技文献的作者字段和专利数据中的发明人字段。 例如:合并科技文献和专利用于分析作者-发明人 Title of Presentation (Edit using View Menu > Header and Footer)
46
处理重复数据 删除重复记录 合并重复记录 Remove duplicate records
用于数据的去重 例如,删除优先权号相同的专利记录,删除重复记录功能仅保留优先权号相同的多个专利记录中的一条记录,其他记录的内容将从数据集合中删除。 删除重复记录 Remove duplicate records 用于合并某些字段中数据相同的记录 例如,来源不同但是内容相同的公开文献可能具有一些不同的内容,比如标题、权利要求等。可以使用合并重复记录功能,将多个记录合并,在一条记录中保留多个原始记录的内容。 合并重复记录 Combine duplicate records 删除重复记录和合并重复记录都会导致记录数量的减少,但是他们的区别是删除重复记录只保留重复记录中的一条记录,而合并重复记录会在合并的记录中保留原始记录中的内容。
47
Remove duplicate records
双击这里改变匹配方式
48
Combine duplicate records
49
现场演示
50
大纲 有机高分子太阳能电池文献分析案例 有机高分子太阳能电池专利分析案例 TDA概述 TDA功能介绍 数据导入 数据管理 数据清理 数据分析
生成报告 TDA的基础培训分为五个部分,今天的培训包括TDA的介绍和TDA数据导入功能。
51
数据的清理 标引的不一致、输入的错误、 文献著者或发明人的不同写法、 科研机构或专利权人的不同表达方式 List cleanup
高质量的数据分析结果首先取决于 数据的准确性与完整性 标引的不一致、输入的错误、 文献著者或发明人的不同写法、 科研机构或专利权人的不同表达方式 List cleanup Thesauri Groups 合并同义词近义词 对代码(如IPC))加文字注释 自定义内部分类系统 将国家合并为洲或地区 1. Import 2. Clean 3. Analyze 4. Report 之前介绍的数据导入和管理是对原始文件和数据集合的操作。而数据的清理是对字段的值进行处理。经过清理的字段内容更加一致、准确、直观,方便我们对数据进行分析。 这里列举了几种典型的数据清理,比如,对科技文献的作者、专利权人的清理、合并同义词、对分类代码比如IPC添加文字注释、将国家合并为州或地区。这些可以通过list cleanup、thesauri和group来操作。首先,我将介绍第一种清理工具LIST CLEANUP。
52
List Cleanup TDA 可以将同义词/等同词等加以区分;
当使用List Cleanup工具时, 您在使用文件名后缀为 .fuz 的文件对数据进行清理. 最常用的模糊匹配文献包括: 专利权人(Assignee)-用于专利权人字段; 发明人(Inventor )-用于发明人字段; 一般(General )-可用于所有的文本字段, e.g. cleaning NLP text fields 我们可以使用list cleanup功能减少和清理列表中的项。执行list cleanup不会影响到原始的列表,TDA会创建新的列表。 TDA通过识别相同的列表中的项来清理列表。例如,人机交互单词中,第一项中“human-computer interaction”带有连字符,那么与不带连字符的“human computer interaction”在列表中作为不同的项出现。 TDA的列表清理算法能够识别单复数和简单的拼写错误。而且TDA可以识别人名缩写与全称,例如steve jobs 和steve J.。
53
利用List Cleanup Tool清理数据
55
相同专利权人的合并 光标拖动放在相应名称下
56
将不应该归并的数据从组中去除 选中数据并采用右键
58
恢复继续清理
59
将清理结果保存为叙词,用于今后数据清理
60
现场演示 清理专利权人并保存为叙词表
61
Thesaurus-- 叙词表 叙词是一种在文献标引与检索中用来表达文献的主题而规范化的词。
TDA中预设多种叙词表,另外,用户还可以自定义叙词表,因此: 您可以利用已有叙词表清理列表 您可以利用List Cleanup生成叙词表 您可以利用组生成叙词表 叙词是一种在文件检索中经常用到的规范化的词。可以认为它代表一种主题或一种分类。TDA中预设多种叙词表,比如,将国家划分为地区的叙词表,包含IPC分类号的详细描述的叙词表等等。用户还可以自己创建叙词表,这也是我们在使用TDA时经常用到的一种方式。它的好处是针对性比较强,方便重复使用,一旦设计出合适的叙词表,会大大减少以后清理数据的时间。
62
使用叙词帮助数据清理 叙词可以被用于任何字段
63
现场演示:利用序词表数据清理分类代码
64
数据列表中的多个项目可以被手动标记到一个组之中
Groups 数据列表中的多个项目可以被手动标记到一个组之中 可以使用叙词表、list comparison自动创建组 将组提取出来形成一个新的数据集合 分组功能使用户能够提取字段中有意义的信息,创建自定义的分组,为接下来的数据分析做好准备。分组功能对减少矩阵或地图的大小非常有帮助。
65
Groups 将在列表中的记录标记为组的成员:例如: 为了进一步分析标记列表中的记录为:
将组加入字段或者数据集合 添加、删除、重命名组 根据组构建叙词表 Groups 将在列表中的记录标记为组的成员:例如: 把所有专利权人标记为“Corporate”的组的成员 把所有大学专利权人标记为“Academic”组的成员 为了进一步分析标记列表中的记录为: Top 15 inventors Top 5 companies 只有在列表打开时,TDA菜单栏中的“Groups”才可以使用. Title of Presentation (Edit using View Menu > Header and Footer)
66
现场演示使用叙词创建组
67
大纲 有机高分子太阳能电池文献分析案例 有机高分子太阳能电池专利分析案例 TDA概述 TDA功能介绍 数据导入 数据管理 数据清理 数据分析
生成报告 TDA的基础培训分为五个部分,今天的培训包括TDA的介绍和TDA数据导入功能。
68
List Comparison Matrices Maps 数据分析 同现矩阵 自相关系数矩阵 互相关系数矩阵
比较不同列表之间的异同,可用于创建组。 可用于比较不同国家、不同机构之间的技术差异。 List Comparison 同现矩阵 自相关系数矩阵 互相关系数矩阵 Matrices 互相关地图可展示基于一列数据分析另一列数据中各个记录之间的关系地图。 例如,基于专利分类代码分析各个专利权人之间的技术研发相似度。 Maps
69
Lists-列表分析工具
70
List Comparison-异同性分析
List Comparison 可能是最常用的TDA功能 用于比较两列数据的内容 匹配的内容可以使模糊匹配也可以使精确匹配 Title of Presentation (Edit using View Menu > Header and Footer)
71
List Comparisons-异同性分析
72
List Comparison的步骤 打开想要比较的列 运行List Comparison 选择想要对比的列
选择得到内容不同还是相同的比较结果,选择精确匹配还是模糊匹配 给匹配结果命名 点击OK
73
现场演示 比较两个数据集合的发明人 找到他们之间共有的发明人
74
Metrics-矩阵分析 同现矩阵(Co-occurrence Matrix):寻找同时出现在两个矩阵参数中的记录
自相关系数矩阵(Auto-Correlation Matrix) :利用矩阵分析在相同的字段中,寻找关系密切的项目。如寻找合作密切的公司、发明人,自相关系数矩阵只适用于有多个数值的字段。 互相关系数矩阵(Cross-Correlation Matrix):利用矩阵分析在不同字段中,寻找关系密切的项目。如在领域研发相似的专利权人。
75
同现矩阵(Co-occurrence Matrix)
A co-occurrence matrix shows the number of records in the dataset containing two given list items. The following illustration shows a Company Names-by-Company Names co-occurrence matrix.
76
时间序列分析 (优先权国际vs优先权年)(共现矩阵)
77
地图用于识别任意两个字段之间的相似,或是相关程度,例如可用来识别哪些公司在从事类似的技术研发,哪些研发人员之间有非常密切的合作等。
Maps-相关性分析 识别研发团队 找出合作机会
78
Maps类型 自相关系数地图(Auto-Correlation Map)
在相同的字段中,寻找关系密切的项目。如寻找合作密切的公司、发明人、国家。 互相关系数地图(Cross-Correlation Map) 在不同字段中,寻找关系密切的项目。如寻找哪些公司在相同的研发领域关系密切。
79
Auto-Correlation Maps-自相关系数地图
自相关关系图显示一张数据表中各个条目的相互关系。例如:一个作者自相关关系图可以显示在一起写作的团队成员。 注意: 对于自相关地图而言, 您应该选择那些在绝大多数记录中都含有多个数据的字段。例如, 作者或者发明人等都是好的选择. 出版日期则不应选择,因为每条记录只有一个出版日期。 An Auto-Correlation Map shows relationships among items in a list. For example, an Auto-Correlation Map of authors can show teams of people who write together. An Auto-Correlation Map of descriptors will show descriptors that have a high degree of correlation by virtue of being used in the same records. Note: For Auto-Correlation Maps, you should only use fields that have multiple values in most of the records. For example, authors or descriptors are good choices. Date of Publication is not a good choice, since there is only one date of publication for each record.
81
用于构建自相关地图的项不宜太多,15-20个比较合适。
因此可以利用组中的项构建地图。例如,top 10 发明人。
82
Cross-Correlation Map-互相关系数地图
互相关系数地图显示列表中各项基于另一列表中的值的关系。例如,基于论文摘要的作者互相关系数地图显示撰写相似内容的一组作者。 因此,创建互相关系数地图需要选择两个字段。第一个字段选择作为节点出现在地图上的项。第二个字段选择节点之间关系的分析基础。
83
Cross-Correlation Map-互相关系数地图
A Cross-Correlation Map shows relationships among items in a list based on the values in another list. For example, a Cross-Correlation Map of authors using descriptors can show groups of people who write about the same things. As another example, a Cross-Correlation Map of organizations using descriptors can show organizations that write about the same things. Creation of a Cross-Correlation Map requires you to select two fields. The first choice is for the items that will actually appear as nodes on the map - usually a group of items you define in a List View. The second field you choose is the basis of the analysis of the relationships among the nodes.
84
节点的大小代表其中包含的项的数量多少。 连线代表节点之间的相似度,粗线、细线和虚线分别对应高、中和低相似性。 自定义相似度阈值,决定是否显示连线。
85
现场演示 利用互相关系数地图查找研发技术相似的专利权人
86
大纲 有机高分子太阳能电池文献分析案例 有机高分子太阳能电池专利分析案例 TDA概述 TDA功能介绍 数据导入 数据管理 数据清理 数据分析
生成报告 TDA的基础培训分为五个部分,今天的培训包括TDA的介绍和TDA数据导入功能。
87
利用Thomson Data Analyzer 生成报告
1. Import 2. Clean 3. Analyze 4. Report 决策性分析 –回答决策性的问题 决策者需要 “报告”, 如 Word, PowerPoint, Excel TDA帮助您快速生成各种报告,为决策者更快做出更好的决策提供依据。只需点击按钮即可生成公司报告、公司间的比较、和对某一技术的深入分析结果。
88
Thomson Data Analyzer 报告类型
1. Import 2. Clean 3. Analyze 4. Report Company Report 关于某一公司的详细分析数据, 如公司的发明人/年代/国家/技术, Company Comparison 公司间的相互比较报告,可同时做5个公司的对比分析 Technology Report 关于某一技术领域的技术分布报告
89
一键生成报告
90
TDA中的一键式报告 Report: Basic Report (DWPI Only,专利数位居前十位的专利权属人报告)
Report: Company Comparison(2个或5个公司间的相互比较报告,相互间比较项目可以选择) Report: Company Report(报告:公司/发明人/年代/国家/技术,分析数据只来自一个机构) Report: Technology Report(以技术/机构/发明人为参照点考量新出现的/消失的/量最大的/独特的技术分布报告) Report: IPC based Analysis ( DWPI Only,前10位专利权属人相关IPC相对Basic Patent Year的分析报告) Report: Make Pivot Chart in Excel(生成二维矩阵分析相应的数据透视表) Report: Plot List in Excel(将List中选定的数据复制到表格中,并自动生成柱形图) Report: Plot Matrix In Excel(将选定的二维矩阵分析复制到表格中,并自动生成三维图、柱形图、折线图) Report: Sum of Matrix Columns (将选定的二维矩阵分析表格中分析元素的列数与行数进行统计) Report: Term By All Years(所有年份出现的词汇分析报告) Report: Term by First Year(词汇第一次出现的年份分析报告) Report: Term by last Year(词汇最后一次出现的年份分析报告) Report: Top Assignees ( DWPI only,前25位专利权属人Derwent 分类/发明人分析报告) Report: Trend Analysis (DWPI only,从技术、市场、专利权人的角度,分析Derwent分类/Derwent手工代码/IPC号对应年份出现的新旧比例,显示技术发展趋势
91
生成报告的注意事项 比较公司数量在2-5个之间 当前数据集合中应当包括所要比较的公司的全部记录 最好使用经过清理的数据生成报告
92
选择生成报告所需的字段 Person选择发明人、作者字段 Organization选择专利权人、机构字段
Country可以选择公开国家、优先权国家 Year可以选择公开年、优先权年 Technology可以选择关键词、分类号,比如德温特手工代码
93
报告包括的内容
94
Aduna Cluster Map Aduna聚类地图用于创建描述List中各项之间关系的动态地图。 例如,查看发明人之间的合作关系等。
需要调用Java Applet。
95
Aduna聚类地图既可以分析List中的所有项,也可以分析List中存在的一个或多个组。
96
Aduna聚类地图具有良好的互动性。 -拖拽地图中的节点改变其位置 -隐藏和显示地图中的节点 -在详情窗口中看到所选节点的其他细节
97
谢谢您的参与! 汤森路透: 北京市海淀区科学院南路2号 融科资讯中心C座北楼610房间 100190
电话: 技术支持
Similar presentations