Download presentation
Presentation is loading. Please wait.
1
Thomson Data Analyzer使用指南
2
课件类别:工具 课件来源:Thomson Reuters 制作日期:
3
Celine Li Thomson Reuters
Thomson Data Analyzer Critical Insight into Competitive and Technical Intelligence Celine Li Thomson Reuters
4
分析流程 最终得到清楚、准确、简明的分析结果 决策者 分析师 明确问题 检索并下载数据 数据清理 数据分析 仔细研究分析结果
提出进一步的问题
5
提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理 数据分析 一键生成报告
6
TDA简介 Thomson Data Analyzer (TDA),是一个具有强大分析功能的文本挖掘软件,可以对文本数据进行多角度的数据挖掘和可视化的全景分析。 TDA能够帮助您从大量的专利文献或科技文献中发现竞争情报和技术情报,为洞察科学技术的发展趋势、发现行业出现的新兴技术、寻找合作伙伴,确定研究战略和发展方向提供有价值的依据。 TDA在数据的导入,数据的清理,数据的分析,和分析结果的报道方面都具有独特的功能。
7
TDA界面 单机版 数据清理 数据分析 数据可视化
8
TDA可以导入、分析哪些数据源 结构化的数据 不同平台 Original Patents DWPI & PCI Web of Science
Import Engine Editor Original Patents DWPI & PCI Web of Science INSPEC Web of Knowledge Aureka Delphion Dialog Thomson Innovation PatentWeb STN MS Excel 无论是汤姆森公司自身的数据或者商业数据 (可利用 Import Engine Editor导入) 您可以用不同来源的数据创建复合记录以便可以了解某个主题的不同侧面., e.g. 例如将PCI 引文信息复合到DWPI完整记录;将 INSPEC 分类信息复合到Web of Science 引文记录.
9
CSCD中文数据 TDA可直接导入的数据源
10
还有哪些数据可以放到TDA中分析? 其他……
11
TDA导入数据过滤器的下载update 下载最新过滤器、叙词表和宏
12
数据导入
13
数据导入 原始数据 Excel数据 已有TDA文件 File菜单:Import
14
可选择用TDA拆分二级字段
15
数据导入 数据管理 导入数据观察 二级字段自动拆分
16
数据导入 数据管理 哪些字段是我需要分析的? 哪些字段是我需要清理的? WOS全字段导入
17
数据导入 数据管理 交互式浏览:更好了解所选字段特性
18
数据导入 数据管理 数据清洗 数据清理之一 Group 高质量的数据分析结果首先取决于数据的准确性与完整性 标引的不一致 输入的错误
中国农业大学:N种名字?规范化! 原始数据的不一致性,如果对数据不加以整理或合并,在统计分析时就会产生一定程度的误差,进而会影响到整个分析结果的准确性。 高质量的数据分析结果首先取决于数据的准确性与完整性 标引的不一致 输入的错误 合并同义词近义词 文献著者或发明人的不同写法 科研机构或专利授权人的不同表达方式 TDA软件内部设有多个叙词表,为您提供快速的自动数据清理的功能,只需点击一个按钮,数据整理工作即可自动完成。 用户还可建立自己的叙词表,对著者/发明人、科研机构/专利申请人/专利授权人、国际专利分类号、等字段加以清理。 数据清理之一 Group
19
数据导入 数据管理 数据清洗 高质量的数据分析结果首先取决于数据的准确性与完整性 标引的不一致 输入的错误 文献著者或发明人的不同写法
机构名称规范化:Ctral+F group清理:查找:添加组别 原始数据的不一致性,如果对数据不加以整理或合并,在统计分析时就会产生一定程度的误差,进而会影响到整个分析结果的准确性。 高质量的数据分析结果首先取决于数据的准确性与完整性 标引的不一致 输入的错误 合并同义词近义词 文献著者或发明人的不同写法 科研机构或专利授权人的不同表达方式 TDA软件内部设有多个叙词表,为您提供快速的自动数据清理的功能,只需点击一个按钮,数据整理工作即可自动完成。 用户还可建立自己的叙词表,对著者/发明人、科研机构/专利申请人/专利授权人、国际专利分类号、等字段加以清理。
20
数据导入 数据管理 数据清洗 TDA软件内部设有多个叙词表,为您提供快速的自动数据清理的功能,只需点击一个按钮,数据整理工作即可自动完成。
机器清洗+人工查证 原始数据的不一致性,如果对数据不加以整理或合并,在统计分析时就会产生一定程度的误差,进而会影响到整个分析结果的准确性。 TDA软件内部设有多个叙词表,为您提供快速的自动数据清理的功能,只需点击一个按钮,数据整理工作即可自动完成。 用户还可建立自己的叙词表,对著者/发明人、科研机构/专利申请人/专利授权人、国际专利分类号、等字段加以清理。 非中国农业大学的:剔除出group
21
数据导入 数据管理 数据清洗 如果需要分析各学院情况,也可再进一步建组别、步骤同前
22
数据导入 数据管理 数据清洗 用group功能清理后会出现一个新的组group即:中国农大、可备用
23
数据清理之Group总结 数据列表中的项目可以被标记到一个集合或者一个组之中 分组功能对于减少共现矩阵的大小非常有帮助
将数据集合中的数据提取出来形成一个新的数据集合并对其加以定义.
24
数据导入 数据管理 数据清洗 数据清理之二 Listcleanup 标引的不一致 输入的错误 同义词近义词 数据加工的错误
Bian, Q H?Bian, Qing-Hua?Bian, Qinghua? 标引的不一致 输入的错误 同义词近义词 数据加工的错误 数据清理之二 Listcleanup
25
数据导入 数据管理 数据清洗 左侧:选择欲清理字段 右侧侧:选择系统预置清理规则
26
数据清理之: List Cleanup的规则解析
TDA 可以将同义词/等同词等加以区分; 当使用List Cleanup工具时, 您在使用文件名后缀为 .fuz 的文件对数据进行清理. 最常用的模糊匹配文献包括: 机构(Affiliation ) - 可用于公司/机构字段,忽略常用的机构标志词 (e.g. Corp, AG, KK, Ltd) 作者(Author )-用于作者字段; 发明人(Inventor )-用于发明人字段; 一般(General )-可用于所有的文本字段, e.g. cleaning NLP text fields
27
数据导入 数据管理 数据清洗 系统按照匹配规则 清理之后的结果
28
数据导入 数据管理 数据清洗 机器筛选加人工识别 右键:弹出选项中可选择移除错误记录
29
数据导入 数据管理 数据清洗 List cleanup清理完成或出现一个新的list,标注有(cleaned)
30
数据导入 数据管理 数据清洗 如何将SCI学科对应到本学校学科类别?或其他分类对应? 数据清理之三 Thesaurus
31
数据导入 数据管理 数据清洗 系统预置有叙词表thesaurus 左侧:选择欲清理字段 右侧:选择系统预置叙词规则
32
数据清理之: Thesaurus-- 叙词表
您可以对一张数据列表利用叙词进行清理 您可以自己编辑叙词表 可以手工拖拽生成叙词表 当在Cleanup Confirm 对话框内点击 Save As Thesaurus 或者利用Groups创建叙词后 (Menu item Groups and Create Thesaurus using Groups ...) 再选择已存在的叙词文件 (*.the), 您就可以将叙词表合并到一个已有的叙词表里
33
数据导入 数据管理 数据清洗 利用叙词表编辑建立本学科内的分类体系
34
打开或上传一个已有基本词表 上位类和下位类的选择
35
可直接拖拽到下位类 也可创建规则
36
将叙词表保存
37
用叙词表清理后 产生新的大类别
38
数据清理总结 高质量的数据分析结果首先取决于数据的准确性与完整性 Groups 在一个字段中标记类似的术语 List Cleanup
机器辅助识别并聚类相似的术语 Thesauri 按照规则识别并聚类类似的术语 生成新的组别Group 生成新的列表LIST 生成新的叙词表
39
还有哪些字段需要清洗? 作者 机构(作者地址) 自然语词(标题、摘要、关键词) 文献来源(国家、地区、) 学科分类 ……
40
数据导入 数据管理 数据清洗 数据分析 一维分析:list 二维分析:matrix map分析:可视化
41
数据导入 数据管理 数据清洗 数据分析 数据分析快捷选项
42
所有导入TDA的字段均可做一维分析及作图
43
二维分析:两个字段的选择 注意:group的使用
44
矩阵分析的类型: 同现矩阵(Co-occurrence Matrix):寻找同时出现在两个矩阵参数中的记录
自相关系数矩阵(Auto-Correlation Matrix) :利用矩阵分析在相同的字段中,寻找关系密切的项目。如寻找合作密切的公司、发明人,自相关系数矩阵只适用于有多个数值的字段。 互相关系数矩阵(Cross-Correlation Matrix):利用矩阵分析在不同字段中,寻找关系密切的项目。如在相同领域研发相似的专利权人
45
what when who where how
46
注意在矩阵分析时:需要明确分析目标,依据目标选择字段
47
可视化分析:选择分析字段和分析方法
48
Map类型: 自相关系数地图(Auto-Correlation Map)
在相同的字段中,寻找关系密切的项目。如寻找合作密切的公司、发明人、国家。 互相关系数地图(Cross-Correlation Map) 在不同字段中,寻找关系密切的项目。如寻找哪些公司在相同的研发领域关系密切。 主成分地图 (Factor Map) 寻找经常共同出现在相同专利文献的项目,比如经常相伴出现的词(NLP);经常相伴出现的发明人;IPC;Manual Code,聚成词簇。
49
线条越粗:研究的相关性越高 create a Cross-Correlation Map:
Create a group in the list you wish to map. Note: Include enough terms in your map, but not too many. Unlike the Factor Map, all of the items you select will appear on the Cross-Correlation Map. Typically, 15 to 20 terms is the most that can fit on a one-page map and still be readable. Creation of a Cross-Correlation Map requires you to select two fields. The first choice is for the items that will actually appear as nodes on the map - usually a group of items you define in a List View. The second field you choose is the basis of the analysis of the relationships among the nodes. 线条越粗:研究的相关性越高
50
数据分析总结 有效的分析可将无序的数据转化为高附加值的情报 List: 快速排序分析各个字段, 生成各种图表。
Matrices: 通过矩阵分析发现隐含的两列数据间相关性、发展趋势 Maps: 通过数据图谱将数据分析的结果可视化,将相关性分析的结果以Map的方式表达出来,揭示机构间,科研人员间或各类技术之间的关系。 ,TDA为您提供了一系列的分析功能,帮助您解决所面临的从简单到复杂的各类问题。
51
数据导入 数据管理 数据清洗 数据分析 可视化报告
53
Clean:Combine Author Networks(发明人聚组)
Clean:DWPI Clean Up ( DWPI Only) Export: Fro Aureka.vpm(生成可以导入Aureka的数据文件,记录之间以***TDA***) Export: Groups to Excel(将“组”导出到Excel) Export: Groups to Text (将“组”导出到Text) Export: Records to Excel (DWPI Only,将记录中预选好的字段导入Excel) Export: Records to Word (DWPI Only,将记录中预选好的字段导入Word) Export: Records to Word,将记录导出到Word) Report: Basic Report (DWPI Only,专利数位居前十位的专利权属人报告) Report: Company Comparison(2个或5个公司间的相互比较报告,相互间比较项目可以选择) Report: Company Report(报告:公司/发明人/年代/国家/技术,分析数据只来自一个机构) Report: IPC based Analysis ( DWPI Only,前10位专利权属人相关IPC相对Basic Patent Year的分析报告) Report: Make Pivot Chart in Excel(生成二维矩阵分析相应的数据透视表) Report: Plot List in Excel(将List中选定的数据复制到表格中,并自动生成柱形图) Report: Plot Matrix In Excel(将选定的二维矩阵分析复制到表格中,并自动生成三维图、柱形图、折线图) Report: Sum of Matrix Columns (将选定的二维矩阵分析表格中分析元素的列数与行数进行统计) Report: Technology Report(以技术/机构/发明人为参照点考量新出现的/消失的/量最大的/独特的技术分布报告) Report: Term By All Years(所有年份出现的词汇分析报告) Report: Term by First Year(词汇第一次出现的年份分析报告) Report: Term by last Year(词汇最后一次出现的年份分析报告) Report: Top Assignees ( DWPI only,前25位专利权属人Derwent 分类/发明人分析报告) Report: Trend Analysis (DWPI only,从技术、市场、专利权人的角度,分析Derwent分类/Derwent手工代码/IPC号对应年份出现的新旧比例,显示技术发展趋势)
54
数据导入 数据管理 数据清洗 数据分析 可视化报告 了解作图注意事项
57
团队合作
58
TDA帮助您快速生成各种报告,只需点击按钮即可生成机构报告、机构间的比较、和技术报告
分析报告总结 TDA帮助您快速生成各种报告,只需点击按钮即可生成机构报告、机构间的比较、和技术报告 Technology Report(分别以技术/机构/发明人为参照点考量新出现的/消失的/量最大的/独特的技术分布报告) Top Assignees ( DWPI only,前25位专利权属人Derwent 分类/发明人分析报告) Trend Analysis (DWPI only,从技术、市场、专利权人的角度,分析Derwent分类/Derwent手工代码/IPC号对应年份出现的新旧比例,显示技术发展趋势)
60
Thank You! 北京市海淀区科学院南路2号 融科资讯中心C座北楼610室 汤森路透 李慧美
技术支持邮箱: Tel: Fax:
61
谢 谢 ! 请批评指正!
Similar presentations