Presentation is loading. Please wait.

Presentation is loading. Please wait.

Celine Li Thomson Reuters

Similar presentations


Presentation on theme: "Celine Li Thomson Reuters"— Presentation transcript:

1 Celine Li Thomson Reuters
Thomson Data Analyzer Critical Insight into Competitive and Technical Intelligence Celine Li Thomson Reuters

2 提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据规范/数据结构化 数据分析 生成报告

3 TDA简介 Thomson Data Analyzer (TDA),是一个具有强大分析功能的文本挖掘软件,可以对文本数据进行多角度的数据挖掘和可视化的全景分析。 TDA能够帮助您从大量的专利文献或科技文献中发现竞争情报和技术情报,为洞察科学技术的发展趋势、发现行业出现的新兴技术、寻找合作伙伴,确定研究战略和发展方向提供有价值的依据。 TDA在数据的导入,数据的清理,数据的分析,和分析结果的报道方面都具有独特的功能。

4 TDA数据导入 结构化的数据 不同平台 Original Patents DWPI & PCI Web of Science INSPEC
Import Engine Editor Original Patents DWPI & PCI Web of Science INSPEC Web of Knowledge Aureka Delphion Dialog Thomson Innovation PatentWeb STN MS Excel 无论是汤姆森公司自身的数据或者商业数据 (可利用 Import Engine Editor导入) 您可以用不同来源的数据创建复合记录以便可以了解某个主题的不同侧面., e.g. 例如将PCI 引文信息复合到DWPI完整记录;将 INSPEC 分类信息复合到Web of Science 引文记录.

5 数据管理 包括数据特性和数据统计信息 ( Dataset Properties, field statistics)
字段的更名以及增加删除等 (Rename/copy/delete/merge fields) 将当前的数据集拆分 (Create Sub-dataset) 文件的合并 ( Merging files) (Data Fusion) (Record Fusion) 记录的去重与合并 (Dealing with duplicate) 尚在的数据有哪些 数据的命名 数据的合并

6 数据清理 高质量的数据分析结果首先取决于数据的准确性与完整性 标引的不一致 输入的错误 合并同义词近义词 文献著者或发明人的不同写法
科研机构或专利授权人的不同表达方式 TDA软件内部设有多个叙词表,为您提供快速的自动数据清理的功能,只需点击一个按钮,数据整理工作即可自动完成。 用户还可建立自己的叙词表,对著者/发明人、科研机构/专利申请人/专利授权人、国际专利分类号、等字段加以清理。 原始数据的不一致性,如果对数据不加以整理或合并,在统计分析时就会产生一定程度的误差,进而会影响到整个分析结果的准确性。

7 数据分析 有效的分析可将无序的数据转化为高附加值的情报 List: 快速排序分析各个字段, 生成各种图表。
List comparison: 对比任何两个列表,揭示其共性或发现某列表的独特性。例如对比分析两个科研机构或两个竞争对手。 Matrices: 通过Co-occurance矩阵,Auto-correlation矩阵, Cross-correlation矩阵, 发现隐含的发展趋势或相关性。 Maps: 通过数据图谱将数据分析的结果可视化,例如将主因素分析、相关性分析的结果以Map的方式表达出来,揭示机构间,科研人员间或各类技术之间的关系。 ,TDA为您提供了一系列的分析功能,帮助您解决所面临的从简单到复杂的各类问题。

8 分析报告 TDA帮助您快速生成各种报告,为决策者更快做出更好的决策提供依据。只需点击按钮即可生成公司报告、公司间的比较、和对某一技术的深入分析。 Technology Report(分别以技术/机构/发明人为参照点考量新出现的/消失的/量最大的/独特的技术分布报告) Top Assignees ( DWPI only,前25位专利权属人Derwent 分类/发明人分析报告) Trend Analysis (DWPI only,从技术、市场、专利权人的角度,分析Derwent分类/Derwent手工代码/IPC号对应年份出现的新旧比例,显示技术发展趋势)

9 提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告

10 案例: 3G通信行业专利分析 (The 3rd Generation )
3G,全称为3rd Generation,中文含义就是指第三代数字通信。 1995年问世的第一代模拟制式手机(1G)只能进行语音通话;1996到1997年出现的第二代GSM、TDMA等数字制式手机(2G)便增加了接收数据的功能,如接受电子邮件或网页;第三代与前两代的主要区别是在传输声音和数据的速度上的提升,它能够在全球范围内更好地实现无缝漫游,并处理图像、音乐、视频流等多种媒体形式,提供包括网页浏览、电话会议、电子商务等多种信息服务,同时也要考虑与已有第二代系统的良好兼容性。为了提供这种服务,无线网络必须能够支持不同的数据传输速度,也就是说在室内、室外和行车的环境中能够分别支持至少2Mbps(兆比特/每秒)、384kbps(千比特/每秒)以及144kbps的传输速度。(此数值根据网络环境会发生变化)。

11 总体技术发展趋势宏观分析 技术领域内重要的专利权人 (专利权人名称) 地区覆盖范围 (国家、地区)
地区覆盖范围 (国家、地区) 创新性活动进展 – 时间序列分析 (优先权年,最近15年) 排名靠前的专利申请者的地区分布 (Top30) 排名靠前的专利申请者其专利申请活动的时间分布(最近15年) 技术发展趋势(时间分布、地区分布、专利权人分布)(Manual Code、NLP words、 热点技术(时间分布、地区分布、专利权人分布) 高影响力专利

12 检索相关专利——分析数据源的获取

13

14

15

16 数据下载

17 数据导入

18

19

20 将字段拆开 例如abstract 拆开

21 Novelty:描述发明的独特性 Use 这个发明在不同技术领域中的应用状况 专利家族

22 DWPI Abstract 的价值 Novelty (Abstract-DWPI Novelty/NOV): 描述发明的独特性.
Detailed Description (Abstract-DWPI Detailed Desc/DTD): 当在Novelty字段无法总结发明主要的权利主张时,摘要中会出现此字段。 Activity (Abstract-DWPI Activity/ACT): 用于描述生物体或者化合物的生物活性 Mechanism (Abstract-DWPI Mechanism/MEC): 描述化合物或者生物体的生物机理. Use (Abstract-DWPI Use/USE): 包括该发明在不同技术领域的使用(应用). If there are no disclosed uses, this is stated. Advantage (Abstract-DWPI Advantage/ADV): 包括由发明人所陈述的发明优势. Tech Focus (Abstract-DWPI Tech Focus/FOC): 描述该发明包含的核心技术领域以外的技术。Technology Focus Abstract is used to group information concerning how the invention is carried out into the technology area(s). Drawing Description (Abstract-DWPI Drawing Desc/DRW): 记录中所包括的技术图示的解释  

23

24 数据管理 数据集拆分 字段的更名 数据集拆分 文件的合并 记录的去重合并

25 将来自不同数据源的数据进行合并分析

26

27 提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告

28 数据清理/数据结构化 高质量的数据分析结果首先取决于数据的准确性与完整性: 清理数据的方法包括: 让数据的差异性最小
尽量减少词汇的拼写差异、或者同义词等 清理数据的方法包括: List Cleanup- 机器辅助识别并聚类相似的术语 Thesauri- 按照规则识别并聚类类似的术语 Groups— 在一个字段中标记类似的术语,同时可保留条目细节 Classifications- 手工将记录分类到用户制定的分类中

29 数据清理/数据结构化 数据规范/数据结构化 为什么要规范数据:
Alloy, alloys; “human-computer interaction” and “human computer interaction” ;单数/复数变化;拼写错误;美式/英式拼写;公司名称/机构的不同书写格式的不同;

30 预制的清理数据脚本,规范数据,生成(DWPI only):
Derwent数据的自动清理工具 预制的清理数据脚本,规范数据,生成(DWPI only): Assignee (cleaned); Inventor ( Cleaned); IPC (Cleaned); Derwent Class (Cleaned)

31 数据清理之: List Cleanup TDA 可以将同义词/等同词等加以区分;
当使用List Cleanup工具时, 您在使用文件名后缀为 .fuz 的文件对数据进行清理. 最常用的模糊匹配文献包括: 机构(Affiliation ) - 可用于公司/机构字段,忽略常用的机构标志词 (e.g. Corp, AG, KK, Ltd) 作者(Author )-用于作者字段; 发明人(Inventor )-用于发明人字段; 一般(General )-可用于所有的文本字段, e.g. cleaning NLP text fields

32 利用List Clean up清理数据

33

34 相同专利权人的合并 (光标拖动放在相应名称下即可)

35 将不应该归并的数据从组中去除(选中数据并采用右键)

36

37 恢复继续清理

38 将清理结果保存为叙词,用于今后数据清理

39 使用叙词帮助信息清理

40

41 数据清理之: Thesaurus-- 叙词表
您可以对一张数据列表利用叙词进行清理 您可以自己编辑叙词表 可以手工拖拽生成叙词表 当在Cleanup Confirm 对话框内点击 Save As Thesaurus 或者利用Groups创建叙词后 (Menu item Groups and Create Thesaurus using Groups ...) 再选择已存在的叙词文件 (*.the), 您就可以将叙词表合并到一个已有的叙词表里

42

43 Insert Major Item/Insert Sub Iterm

44 数据清理之Group 数据列表中的项目可以被标记到一个集合或者一个组之中 分组功能对于减少共现矩阵的大小非常有帮助
将数据集合中的数据提取出来形成一个新的数据集合并对其加以定义.

45 形成Top30专利权人组成(选中并用右键)

46

47 比较不同国家专利量

48

49 提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告

50 数据分析 List:一维分析 矩阵分析:二维分析 Map:最好利用分过组的数据进行分析 预制的分析模块 :三维分析/分析报告

51

52 地区覆盖 ( 专利申请国一维分析) 右键选择数据拷贝并做图

53

54 共现值高于或者低于期望的数值很多时,将会出现一个期望值显示箭头
箭头的表示共现值与期望之差距的大小 没有箭头则表明这个数值与期望值没有太大偏差 绿色向上的箭头表示共现值大于预期 红色向下箭头表示数值低于预期.

55 二维矩阵分析

56 矩阵分析的类型: 同现矩阵(Co-occurrence Matrix):寻找同时出现在两个矩阵参数中的记录
自相关系数矩阵(Auto-Correlation Matrix) :利用矩阵分析在相同的字段中,寻找关系密切的项目。如寻找合作密切的公司、发明人,自相关系数矩阵只适用于有多个数值的字段。 互相关系数矩阵(Cross-Correlation Matrix):利用矩阵分析在不同字段中,寻找关系密切的项目。如在相同领域研发相似的专利权人

57 同现矩阵(Co-occurrence Matrix)

58 时间序列分析 (优先权年)(共现矩阵)

59 总体技术发展趋势宏观分析 地区覆盖范围 (国家、地区) 创新性活动进展 – 时间序列分析 (优先权年,最近15年)
地区覆盖范围 (国家、地区) 创新性活动进展 – 时间序列分析 (优先权年,最近15年) 专利权人趋势 (专利权人名称) 排名靠前的专利申请者的地区分布 (Top30) 排名靠前的专利申请者其专利申请活动的时间分布(最近15年) 技术发展趋势(时间分布、地区分布、专利权人分布)(Manual Code、NLP words、 热点技术(时间分布、地区分布、专利权人分布)

60 排名靠前的专利申请者的地区分布 (Top30)

61

62

63 排名靠前的专利申请者其专利申请活动的时间分布(最近15年)

64

65 技术发展趋势(不同公司的技术发展侧重点)

66 技术发展趋势(随年代的变化)

67 热点技术(时间分布、地区分布、专利权人分布)

68 Map类型: 自相关系数地图(Auto-Correlation Map)
在相同的字段中,寻找关系密切的项目。如寻找合作密切的公司、发明人、国家。 互相关系数地图(Cross-Correlation Map) 在不同字段中,寻找关系密切的项目。如寻找哪些公司在相同的研发领域关系密切。 主成分地图 (Factor Map) 寻找经常共同出现在相同专利文献的项目,比如经常相伴出现的词(NLP);经常相伴出现的发明人;IPC;Manual Code,聚成词簇。

69 Auto-Correlation Maps
自相关关系图显示一张数据表中各个条目的相互关系。例如:一个作者自相关关系图可以显示在一起写作的团队成员。一个叙词的自相关关系图将可以因在同一记录中被使用显示它们之间的高度相关性。 注意: 对于自相关地图而言, 您应该选择那些在绝大多数记录中都含有多个数据的字段.例如, 作者或者叙词等都是好的选择. 出版日期则不应选择,因为每条记录只有一个出版日期.

70

71

72 提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告

73

74

75 Clean:Combine Author Networks(发明人聚组)
Clean:DWPI Clean Up ( DWPI Only) Export: Fro Aureka.vpm(生成可以导入Aureka的数据文件,记录之间以***TDA***) Export: Groups to Excel(将“组”导出到Excel) Export: Groups to Text (将“组”导出到Text) Export: Records to Excel (DWPI Only,将记录中预选好的字段导入Excel) Export: Records to Word (DWPI Only,将记录中预选好的字段导入Word) Export: Records to Word,将记录导出到Word) Report: Basic Report (DWPI Only,专利数位居前十位的专利权属人报告) Report: Company Comparison(2个或5个公司间的相互比较报告,相互间比较项目可以选择) Report: Company Report(报告:公司/发明人/年代/国家/技术,分析数据只来自一个机构) Report: IPC based Analysis ( DWPI Only,前10位专利权属人相关IPC相对Basic Patent Year的分析报告) Report: Make Pivot Chart in Excel(生成二维矩阵分析相应的数据透视表) Report: Plot List in Excel(将List中选定的数据复制到表格中,并自动生成柱形图) Report: Plot Matrix In Excel(将选定的二维矩阵分析复制到表格中,并自动生成三维图、柱形图、折线图) Report: Sum of Matrix Columns (将选定的二维矩阵分析表格中分析元素的列数与行数进行统计) Report: Technology Report(以技术/机构/发明人为参照点考量新出现的/消失的/量最大的/独特的技术分布报告) Report: Term By All Years(所有年份出现的词汇分析报告) Report: Term by First Year(词汇第一次出现的年份分析报告) Report: Term by last Year(词汇最后一次出现的年份分析报告) Report: Top Assignees ( DWPI only,前25位专利权属人Derwent 分类/发明人分析报告) Report: Trend Analysis (DWPI only,从技术、市场、专利权人的角度,分析Derwent分类/Derwent手工代码/IPC号对应年份出现的新旧比例,显示技术发展趋势)

76 Report: Company Comparison(2个或5个公司间的相互比较报告,比较项目可以选择)

77 Tech Report

78 提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告

79

80 Thank You! 北京市海淀区科学院南路2号 融科资讯中心C座北楼610室 汤森路透科技与医疗集团中国办事处 李慧美
技术支持邮箱: Tel: Fax:


Download ppt "Celine Li Thomson Reuters"

Similar presentations


Ads by Google