张智雄、刘建华、谢靖、邹益民、钱力国家科学图书馆 基于对象计算实现网络科技信息的监测 张智雄、刘建华、谢靖、邹益民、钱力国家科学图书馆
提纲 基本情况介绍 建设成果展示 系统的关键技术 重中之重:对象计算的思路和方法
提纲 基本情况介绍 建设成果展示 系统的关键技术 重中之重:对象计算的思路和方法
1.基本情况介绍 战略情报的很多 资源都由特定机 构通过网络发布
1.基本情况介绍 "Science Monitor and Detection based on Scientific Web Resources" is one of the important research issues in National Science Library: “十一五”国家科技支撑计划子课题“网络科技信息监测与评价”(2006BAH03B05)2007-2010 国家社会科学基金“网络科技信息中爆发主题的监测与分析方法研究(09BTQ035)”2009-2011 中国科学院知识创新工程重要方向项目“重要科研机构发展态势自动监测的关键技术研究与突破” 2009-2010 中国科学院知识创新工程重要方向项目,科技发展态势自动监测体系(2009-2011) “科技机构自动监测服务系统”子项目 “专门领域自动监测服务系统”子项目 “科技情报监测与分析知识本体系统”子项目
1.基本情况介绍 开发和建设了网络科技信息监测系统,可以为相关科技战略情报研究提供监测服务 能够帮助战略情报研究团队全面及时地跟踪监测 多个目标机构和目标领域的动态信息 有效辅助战略情报研究团队识别有重要情报价值的信息 解析PDF、WORD等格式的重要报告内容以识别情报类型 实现监测资源的主题聚类导航 自动揭示重要主题和重要对象 推荐一定时间窗口内的热点对象与热点主题; 为战略情报研究人员提供了一个在线计算机情报工作平台,实现了动态监测快报类情报产品的高效率加工生产报道
1.基本情况介绍 形成了“能源”等5个重点领域的网络科技信息监测,形成了一定的面向实际应用的科技信息监测与服务能力 战略情报研究团队合作 “科技政策与战略” “空间光电科技” “先进能源科技” “资源与环境” “信息科技” 构建了“科技政策与战略”、“空天科技”、“能源科技”、“资源与环境”、“信息科技”等5个领域的网络科技信息监测系统
1.基本情况介绍 监测的重点内容 重要战略声明 重大战略规划 重要项目与计划 预算 统计评价 formal statement & declaration on some key sciences issues 重大战略规划 strategy (strategic plan) for science, technology and innovation 重要项目与计划 key initiative & research program 预算 science budget, science funding, R&D budget 统计评价 Science, Technology and R&D statistics, GDE on R&D, S&T Indicators 《国际竞争力指标》、《OECD创新记分牌》 Science strategy and policy Gross Domestic Expenditure on R&D, Main Science and Technology Indicators
1.基本情况介绍 监测的重点内容 政策措施 机构调整 重大成果 研究报告 science and technology policy, innovation management, decision making, policy-making 机构调整 organizational adjustment, change, expansion, organizational restructuring 应对第二次Sputnik危机,美国科技创新战略调整的思路、方向和布局 重大成果 Breakthrough, scientific achievement, research achievements, outstanding research accomplishments 研究报告 Periodic Report, Annual Report, Technical Report Science strategy and policy
1.基本情况介绍 监测的对象选择 国家选择: 机构选择 重点人物选择 ...... 科技大国、金砖5国、发达国家、新兴国家... 科技管理机构、科技资助机构、具体研究机构... 重点人物选择 国家领导人、科技管理机构负责人、科研执行机构负责人、科学家 ...... Every 6 hours to download the news published from those sites
1.基本情况介绍 “科技政策与战略”监测选择了85个机构 OSTP (Office of Science and Technology Policy) Research Councils UK (RCUK) The National Science Foundation (NSF) The International Energy Agency (IEA) SciDev.Net OECD Worldwatch Institute RAND Science Business Hudson Institute The Brookings Institution
提纲 基本情况介绍 建设成果展示 系统的关键技术 重中之重:对象计算的思路和方法
2.建设成果展示 (1)通过敏感对象实现情报价值判断 Identify valuable information from crawled webpages by sensitive vocabulary sensitive word such as: Strategic plan, vision & strategy, policies, guidelines, annual Report, organization Chart …… calculate the importance of the web page, mark the importance of web pages by the number of stars
给出每天监测到的信息数量, 按星级来标识监测到信息的重要度
Profiling能源领域一个月来的主要主题和重要科研对象
2.建设成果展示 (2)实现情报类型的分类 Identify the category which the intelligence belong to 9 intelligence category Declaration, Strategy, Project, Budget, Statistics, Policy, Adjustments, Achievement, Report Using automatic classification tools
对监测到的信息资源按情报性质进行自动分类和导航
2.建设成果展示 (3)对富文档内容进行监测 Rich Text: PDF files, WORD files, PPT files…… Report, Statistics, Declaration, Summaries High value of information Identify Rich Text files after each crawl Cache the Rich Text files for future using
富文档内容进行监测
富文档内容进行监测
2.建设成果展示 (4)实现文本内重要对象的抽取和揭示 Extract key terms and objects from the Web pages Information Extraction Term extraction
原文
Terms and Objects Extracton Key Terms Key Objects
2.建设成果展示 (5)实现监测内容归类导航 Clustering the web pages in a web site for easy browsing and exploring Topic clustering based on extracted terms
可以按时间段(今天、十天、本月)和地理分布等来展示监测到的信息资源
按照地理分布来展示十天内监测到信息资源
按照可视化方式导航特定主题的监测信息
可以深入对特定机构的重要信息进行深入分析,如选择“美国能源部”
对“美国能源部”的信息进行主题导航
2.建设成果展示 (6)识别出选定机构的重要对象 Key project Key person Key institution Key conference ……
Identify key objects: SciDev.Net
Identify key objects: SciDev.Net
对美国能源部的关注的重要对象进行揭示,能源部相关重要人物
Identify key objects: Department of Energy
2.建设成果展示 (7)实现不同机构"重要主题"的揭示 Identify important topics in a web site topic based on terms frequency
Identify key topics: SciDev.Net
Identify key topics: Science Business
2.建设成果展示 (8)实现不同机构的"热点"的揭示 Identify the hot topics in a periods
对美国能源部的“Steven Chu”各个时间段的信息进行揭示
对美国能源部的各个时间段的“热点主题”进行揭示
对美国能源部的2010年12月的几个热点主题在不同时间的主题趋势进行揭示
对美国能源部的各个时间段的“热点对象”进行揭示
后台管理系统,可以实现对专报、快报资源的选择和编辑
提纲 基本情况介绍 建设成果展示 系统的关键技术 重中之重:对象计算的思路和方法
3.系统的关键技术 Research objects Automatic Extraction Data Mining And In-depth Analysis Research Profiling … Research objects
研究描绘(Research Profiling) 3.系统的关键技术 重要科研机构的发展态势监测 应用 分析及可视化 研究描绘(Research Profiling) 结构化的语义数据 基础数据 结构化的科研对象 及其关系 结构化科研术语 The project that supports our research:Science Monitoring and Evaluation based on Scientific Web Information---subproject of National Key Technology R&D Program in the 11th Five year Plan of ChinaFund by MOST (Ministry Of S &T of the P R of China)--2007.1~2009.12 网络科技信息资源 数据来源
3.系统的关键技术 新资源的识别与判断 网页类型的分析与识别 对于采集到的网络信息资源,识别和判断哪些资 源是新资源,并确定其出现的时间段。 对采集到的网络信息资源(主要是网页)进行类 型识别,区分哪些是有特定主题内容的主题网页, 哪些是密集链接、不包含或包含极少叙述文字的 噪音网页(如索引页、列表页、表单页、图片页、 视频页、正文文字极少的网页)。有特定主题内 容的主题网页是下一阶段监测分析的基础。
3.系统的关键技术 网页资源的主体内容识别与判断 网页资源主体内容的识别与判断技术的目标 是从网页中的半结构化信息中抽取出网页的 主体内容,而过滤掉网页中经常包含的广告 链接、导航条、版权等非网页资源主体内容 的噪音数据。
3.系统的关键技术 资源信息价值的识别与判断 富文档监测识别与富文档元数据提取 对于采集到的网络信息资源,需要识别出哪 些是有重要情报价值的信息,而哪些是无用 或情报价值小的信息,以让情报人员关注有 价值的信息。 富文档监测识别与富文档元数据提取 识别采集到的网络信息资源中以PDF、DOC 、PPT等富文档文件发布的重要信息。
3.系统的关键技术 重要科研对象及对象关系的识别与抽取 对采集到的网络科技信息进行语义标注,从 这些科技信息中识别和抽取出网页文本中包 括的研究人员、科研机构、科研项目、科研 基金、科研会议等科研对象,以及这些对象 之间的相关关系。
3.系统的关键技术 科研术语的识别与抽取 监测主题的自动聚类 科研术语的识别与抽取目标在于从网页资源 中识别和抽取出相关的科研术语,以实现对 网页主题内容的表示。 监测主题的自动聚类 通过主题的自动聚类,可以发现监测信息资 源的全局分布模式以及监测资源之间的相互 关系。
3.系统的关键技术 热点词、新词的自动识别技术 监测主题和对象的可视化技术 热点词、新词的识别,可以实现对监测资源 的热点内容和新内容的监测的基础,帮助情 报人员快速把握热点和新动向 监测主题和对象的可视化技术 基于Research Profiling的思想,通过可视 化技术,从主题聚类、重要对象、热点主题 、热点对象等不同的方面,可视化地描述监 测主题和对象的状态与变化情况
提纲 基本情况介绍 建设成果展示 系统的关键技术 重中之重:对象计算的思路和方法
4.对象计算的监测 主要目标: 借助于信息抽取、数据挖掘等信息处理方法,综合传统的情报人员人工分析的经验,自动判断情报价值,并对有价值情报进行深入挖掘处理。通过这一探索实践,将情报分析与信息技术紧密结合,形成科学化、可计算化、研究化的情报研究过程。
4.对象计算的监测 主要思路: 持续不断地获取科研机构的相关新信息,监测科研机构的变化发展情况 将所有文本信息转化为带时间戳的对象,形成可供计算的数据,支持各类指标 在构建大规模知识库的基础之上,实现各种相关对象及领域主题的语义挖掘 进而通过可视化分析技术进行态势的分析和展示 科技领域的全景透视是基于文献信息进行大尺度的领域态势监测和分析的技术方法,重点在于确定领域景观中的各个被监测对象的位置; 科技领域的新事物识别重点在于对被监测对象新情况的发现,如科技领域中的新事件、新概念、新问题、新趋势、新热点、新领域、新计划、新思路、新方法……的发现和探测; 科技领域的特色探测重点研究各级研究实体在相关领域内会表现出不同的差异性的发现、识别、分析和解释; 科技领域的变迁探测重点被监测对象随着时间轴而出现的发展变化情况; 科技领域的趋势预测分析被监测对象对象未来的发展情况; 科技领域的机会发现监测和识别与科研机构(如我院)各种科研机会,如发现互补型机构并且确定可能的合作机会。
4.对象计算 通过机构相关新信息变化,监测机构活动 ~2010年数据 ~2009年数据 网站, 新闻, RSS, 文献数据 新项目 新计划 新成果 新计划 新人员 新事件 新术语 新领域 新…… ~2009年数据 网站, 新闻, RSS, 文献数据
4.对象计算 将所有文本信息转化为带时间戳的对象 通过信息抽取,将所有文本内容转化为两种简单结构,并建立起这些对象的关系 类型,对象,时间 例:计划,国家人权行动计划,2009-04-14 对象,对象,关系 例:国务院,国家人权行动计划,发布
4.对象计算 For example: We turn it into following time-stamped objects July 13, 2010, White House Announces National HIV/AIDS Strategy We turn it into following time-stamped objects Object type, Object, Time stamp Strategy, National HIV/AIDS Strategy, July 13, 2010 Object A, Object B, Relationship, Time Stamp White House, National HIV/AIDS Strategy, Announces, July 13, 2010
4.对象计算 LarKC: The Large Knowledge Collider 知识对象的抽取 LarKC: The Large Knowledge Collider The aim of the EU FP 7 Large-Scale Integrating Project LarKC is to develop the Large Knowledge Collider (LarKC, for short, pronounced “lark”), a platform for massive distributed incomplete reasoning that will remove the scalability barriers of currently existing reasoning systems for the Semantic Web. LarKC is sponsoring the following international scientific events: 11th International Conference on Principles of Knowledge Representation and Reasoning (KR 2008) …… 关系标识 术语 系统平台 项目 学术会议 知识对象间关系的抽取
4.对象计算 指标和带时间戳的对象的关系 指标体系A 指标1 指标2 指标3 指标4 指标… 指标体系B AAA 监测 BBB 对象1 对象2 对象3 对象4 对象5 对象6 对象7 对象… 某个机构 监测模型 A B 时间1 时间2 时间3 时间4 时间5 时间6 时间7 时间…
4.对象计算——情报重要度的计算实例 情报重要度的计算方法
4.对象计算——情报重要度的计算实例 判断某个页面的情报重要度,我们重点从5个指标体系和组织规则进行计算: 5类指标体系 组合规则 情报来源指标 情报类型指标 情报主体对象指标 情报科技相关度指标 情报主题相关度指标 组合规则
4.对象计算——情报重要度的计算实例 1.情报来源指标(即资源来源的权威度) 来源机构的国家类型 来源机构的类型 来源目录类型 科技大国家,金砖5国、发达国家、新兴市场 来源机构的类型 科技管理机构、重要国际组织、科技资助机构、具体研究机构、新闻网站、综合性网站 来源目录类型 战略(Strategy);研究报告(Research report, Publication); 重要新闻(highlight); 新闻(news, press release); 事件(events) .........
4.对象计算——情报重要度的计算实例 2.情报类型指标 情报的类型 计算依据 官方重要信息发布 深度分析报告 专家观点 新闻报道性信息 资源载体类型:pdf、doc、ppt、html等。 资源关敏感指示词:annual report、budget、research report 资源来源目录名:news、publication、research article、annual report
4.对象计算——情报重要度的计算实例 情报主体对象指标 主要是考虑某条资源中谈论的主体对象是否是值得关注 主体对象 重要国度:是否讨论主要发达国家、金砖5国等的内容。 重要科研机构:资源是否关注核心机构、重要组织的问题,如美国白宫政策、RCUK、NSF... 重要人物:核心国家首脑、核心机构负责人、科研人员... 重要计划、政策、项目、宣言.......
4.对象计算——情报重要度的计算实例 情报科技相关度指标 OECD、世界银行及欧盟等重要机构,都会发布一些重要的科技信息,但这些网站上,也有很多与科技无关,与科技战略无关,需要排除无关。 通用词: Economy, Plan, Program, Innitiative..... 科技词: Science, Technology, Innovation, Talent... 科技对象: NSF, NASA,NIST,America Competes Act,United Nations Framework Convention on Climate Change...
4.对象计算——情报重要度的计算实例 情报主题相关度指标 领域主题,本领域的主题词表 领域重要对象: 空间光电:ESA, JAXA, Lockheed Martin,Committee on Space Research 科技战略与政策:Office of Science and Technology Policy, High-Tech Strategy, Innovation Union
4.对象计算——情报重要度的计算实例 组合规则 重要: 不重要: 不重要: Barack Obama + Sci&Tech|Innovation 重要人物+科学技术 OECD报告 + 美国(或BRICS)创新政策 重要来源+重要国家 不重要: Barack Obama + visiting ...... 不重要: OECD报告 + 赞比亚(尼泊尔)的创新政策
4.对象计算—背后的系统及工作
4.对象计算—背后的系统及工作
4.对象计算—背后的系统及工作
4.对象计算—背后的系统及工作
4.对象计算—背后的系统及工作
4.对象计算—背后的系统及工作
谢谢! zhangzhx@mail.las.ac.cn