国家科学图书馆: 刘丹军、赵雅娟、王晓梅、胡正银等 创想通科技: 阎武鹏 等 2010年 洛阳 中国科学院专利在线分析平台系统设计 国家科学图书馆: 刘丹军、赵雅娟、王晓梅、胡正银等 创想通科技: 阎武鹏 等 2010年 洛阳
专利的价值 现代社会是信息社会,有学者提出:在某种意义上,信息资源已经取代化石类资源,成为现代文明社会中最重要的战略资源之一。而在各种信息资源中,专利信息资源是由各国政府和组织认可的,“专利统计为技术变革过程分析提供了唯一的源泉,就数据质量、可获性及详细的产业、组织和技术细节而言,任何其它数据均无法与专利相媲美。”
专利利用的现状 我国自1985年实施专利制度以来,截至2009年3月,已累计授权专利2597904件。面对专利信息的飞速增长,我国专利信息利用的状况并不乐观。我国企业的专利文献利用率只有35.4%,而日本企业为92%。
专利分析技术 (l)数据整理和概念分组。 (2)列表或直方图。 (3)共现比较矩阵(CooeeurreneyMatriees)。 (4)有结构数据聚类。 (5)无结构数据聚类。 (6)文档聚类地图。 (7)引文分析。 (8)“主语/行为/宾语” Subjeetlaetion/objeetSAO)。
国外专利分析软件 Derwent Analytics: Delphion: Aureka: SciFinder: STN Express with Discover: STN AnaVist:INAS: M-CAMDOORS Vivisimo: OmniViz: Knowledgist:
国内专利分析软件 目前国内的很多机构和公司也开始介入专利分析工具的研发,比较成熟的有: 北京东方灵盾科技有限公司与M—CAM合作的专利检索及战略分析平台East Linden Doors工具 ,保定大为公司的PatentEX专利信息创新平台、北京彼速信息技术公司的经纬线专利分析系统、国知局下属知识产权出版社开发的专利信息分析系统、恒和顿的HIT-恒库以及我国台湾连颖公司开发的PatentGuide等。
专利分析技术的发展趋势 一、语义与智能: 越来越多的软件开发商将自然语言处理、人工智能和语义技术等领域的创新应用于专利分析工具中。如欧盟资助的PATExpert项目,以及BioPatentMiner平台。 二、细分与融合:软件开发商不再自己开发所有的模块而是各有侧重。分别在文本挖掘、数据处理和分析结果的可视化上下工夫。 三、泛在化: 不再是单机光盘版和席位制度,专利分析工具已经日益向泛在化和网络化发展。 四、个性化: 很多专利分析系统在分析指标体系、数据清洗规则等方面也提供自定义字段、自定义格式和自定义指标等多种个性化的功能等。 五、交互与可视化:现在有越来越多的分析工具在分析结果的可视化输出上取得突破,不少工具还可以将专利和其他类型的文献进行关联分析。
二、论文主要内容 相关技术介绍 整体构架与开发环境设计 基于Mysql的数据库设计 工作流程与业务模块设计 关键技术分析 指标体系建设
相关技术介绍 建设本专利在线分析系统中涉及到的相关技术主要有:基于开源软件的数据库技术、系统平台技术、开发环境的J2EE技术、AJAX技术、基于Lucene的全文检索技术、基于JFreeChart的可视化技术。
相关技术介绍 MySQL:是一个开源的关系型数据库管理系统,目前被广泛地应用在Internet上的中小型网站中,是一个真正的多用户、多线程SQL数据库服务器。MySQL由一个服务器守护程序mysqld和很多不同的客户程序和库组成;mysql遵循SQL:2003标准,支持子查询、Unicode、视图、存储过程和触发器等。 Ubuntu 是一个更新迅速且稳定可靠的 Linux 子项目,囊括了大量精选自 Debian版的软件包,同时保留了Debian 强大的软件包管理系统,提供了一个健壮、功能丰富的计算环境,支持各种架构,相关的任务均需使用Sudo指令 ,内置支持Java的开发,包括Tomcat 6.0和OpenJDK ;支持虚拟化KVM技术。
相关技术介绍 随着互连网络和企业信息化的飞速发展,HTTP、XML和Java平台逐渐演变成为针对主流应用开发的平台,由SUN为首的众多知名厂商共同制定的J2EE(Java2 Platform EnterpriseEdition)平台规范则为企业开发新应用提供了事实上统一的标准。 J2EE体系结构提供中间层集成框架和统一的开发平台保证了产品的易用性、高可靠性以及扩展性的需求。同时完全支持Enterprise JavaBeans和XML,支持Servlets和JSP。有良好的可移植性,只需开发一次就可部署到各种操作系统、中间件、硬件平台上。
J2EE框架示意图
相关技术介绍 基于Lucene的全文检索技术 可视化技术JFreeChart Lucene是一个开源的全文检索引擎工具包,2001年成为apache软件基金会jakarta的一个子项目,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene为软件开发人员提供一个简单易用的工具包,以便在系统中实现全文检索的功能。 可视化技术JFreeChart JFreeChart是一个开源的java图形解决方案,其主要显示图型有:饼图、柱状图、线图、区域图、分布图、混合图、甘特图以及一些仪表盘等。JFreeChart可用于Servlet、JSP、Applet、Java Appication 等环境中,通过 JDBC 可动态显示任何数据库数据,并可导出成PNG和JPEG格式。
整体构架与开发环境 系统设计的总体思路: 是以满足用户个性化使用为目标,实现从专利数据特征项到分析指标,再到分析结果的可视化输出,最终实现海量数据检索与分析统计、用户个性化分析主题建设以及分析结果可视化的有机集成。
系统开发示意图
系统整体体系结构设计 是基于MVC原理实现,共分DAO层、SERVICE层、ACTION层和WEB层。DAO层是靠hibernate来实现,SERVICE层是靠Springs来实现,ACTION层是靠Struts2来实现。专利系统是以Struts2的插件形式与Spring2进行整合,统计图采用jfreechart来实现。检索引擎使用的是Lucene实现的,定义了索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件
后台工作流程 控制器(action) 业务逻辑 组件工厂 业务逻辑 组件 DAO组件 DAO组件工厂 Hibernate 持久层 JDBC
后台工作流程与配置 在struts.xml中配置的action指定class属性时,直接指向spring的bean id,这样完成了action--bean之间的关联,由spring中对应的bean实例创建action,在action中只是调用业务逻辑组件的方法就可以。 在业务逻辑方面由实现类具体实现,在业务逻辑组件中可以调用DAO组件,DAO 层的设计思路与业务逻辑层基本相同,DAO层是由多个DAO组件和一个DAO工厂组成,DAO组件的实现类似于业务逻辑组件,都是面向接口编程。 DAO工厂类提供一个缓冲池来缓存每个DAO实例,当然需要一个xml文件作为配置文件来配置所有DAO组件,工厂类里面要解析xml,通过反射创建DAO 组件实例。在hibernate.cfg.xml中配置数据库信息,连接池采用的是Proxool。
系统整体构造 Web服务器采用的操作系统式ubuntu,java采用的是jdk1.6,tomcat采用6.0版本; 数据库服务器采用的操作系统式ubuntu,数据库采用的是mysql5.0; 源数据服务器采用的操作系统式是windows,数据库采用的是sqlserver。
数据库整体结构 采用三层数据库结构 数据源数据库:通过采集国家知识产权局提供的测试样本数据,除供专利检索系统使用之外,同时可以预留扩充余地提供给包括数据挖掘等其他应用。 专利检索系统镜像数据库:从上述数据源数据库同步收割数据,经过数据清洗,数据库结构的变换,同时产生lucence索引后,作为专利检索系统的数据源,以期提供最高限度的检索性能。 用户个人数据表空间:根据本系统建立的专利分析指标体系,提供了30余种数据统计分析图表,为保证统计图表的表现性能,系统为每一个用户开辟了单独的表空间,作为该用户的个人数据区。该数据区上的数据,用户可以根据需要进行自定义的设定、修改或者调整。
系统示意图
开发环境构成与配置
平台数据库设计 中国专利数据的DTD定义 DTD(文档类型定义Document Type Definition) 是一套关于标记符的语法规则。它是XML1.0版规的一部分,是XML文件的验证机制,属于XML文件组成的一部分。DTD 是一种保证XML文档格式正确的有效方法,包含:元素的定义规则,元素间关系的定义规则,元素可使用的属性,可使用的实体或符号规则
内容之二----数据库设计 本系统的数据源数据库系统完全按照国家知识产权局的数据格式存储。而专利分析镜像数据库与个人专利数据库都采用MySQL数据库作为数据库管理系统,其中个人专利数据库是在专利分析镜像数据库基础上添加了个人信息、项目信息、分类信息、专利分析策略等表格。可以说个人专利数据库结构设计涵盖了专利分析镜像数据库。数据库中的表格基本上分为三类,分别是:专利基本信息相关表、分析主题相关表、智能分类相关表
关系视图
关系视图
业务模块设计 提供对中国专利的专利检索、装载、分类、标引、分析、导出等功能,可以按照用户需求建立主题数据库;本系统可以方便科研人员、专利分析人员实现基于专利的数据检索和分析,高效利用专利信息,提高技术创新能力。管理的资源对象主要为中国国家知识产权局提供的专利数据以及相关数字资源集合,包括索引、检索策略等。 系统的用户的类型与角色功能:系统用户类型总共分为3类:用户、系统管理员、数据维护人员.
功能描述与业务流程 系统采用机构、用户和主题三级管理方式。机构是指使用该系统的单位, 用户是机构下具体使用在线分析系统的用户,主题则是用户定制的研究课题的专利信息集合,是在专利数据库系统中检索并建立起来的结果集。用户可以根据自己的分析需求建立多个主题。其业务全流程包括: 用户登陆, 建立专利主题,进行专利检索以抽取所需要的数据建立个人主题专利数据库, 对专主题专利数据库进行数据管理(数据规范化,数据清洗等), 进行专利分析。
总流程图
内容之三----业务模块 认证管理
内容之三----业务模块 数据检索: 经过用户认证后,系统默认进入数据专利检索页面,在该页面可以通过按钮选择:简单检索或高级检索,检索对象为专利数据库中的所有数据。简单检索对专利名称、申请号和摘要三个字段进行检索,结果有两种表现方式:摘要式和列表式,高级检索的表现方式为:列表式。
检索功能流程示意图
内容之三----业务模块 主题管理 新建一个用户后,程序自动建立一个主题组,名称为:我的主题组,在我的主题组中有一个主题,名称为:我的专利。主题管理分为两部分,左边为主题组树,右边为主题列表。主题可以进行编辑、删除、合并、移动等操作; 可以在主题管理页面方便的查看各个主题的主题名称、主题中的专利件数、管理员,创建时间等相关信息;也可以对单个主题中的数据进行统计分析。
业务模块 统计分析: 对选定的专利数据检索结果集按照指定的分析指标进行分析, 如年度申请量、申请类型件数、申请人排行榜、发明人排行榜、国省代码排行榜等。根据分析结果和页面设定的显示设定,按照分析主题生成相应的点折线图、三维饼图、雷达图等多种图表,并可生成相应的分析数据表。
业务模块 数据清理: 数据清理功能分为服务器端和用户端,服务器端指的是在将相关专利数据库的授权数据导入检索服务器时所作的工作,而用户端指用户根据自己的需要针对检索结果集中的数据所作的清洗工作。
内容之三----业务模块 数据导出: 选中想要导出到其它主题中的数据,点击[导出到主题]按钮,此时将打开导出到主题窗体,在窗体中选择主题组和主题组中的主题,点击[导出]按钮,导出完成后提示导出成功。
内容之四----关键技术分析 数据同步: 数据同步数据层业务的封装主要是通过Hibernate来实现的。同步过程为:把源数据(sqlserver)的数据写入mysql并且生成增量索引;为了保证每次从数据库里面检索10万条数据的海量数据检索的性能,使用了scrool()方法和setCacheMode()方法来处理大数据的查询,通过session.clear()方法来第一级缓存的大小。Mysql的写操作是每50次执行一次session.flush()和session.clear(),然后再索引。
关键技术分析:海量数据检索: Query 中使用内存 选取最适用的字段属性 用连接(JOIN)来代替子查询 选取最适用的字段属性 用连接(JOIN)来代替子查询 使用联合(UNION)来代替手动创建的临时表 巧妙使用事务和锁定表
内容之四----关键技术分析 安全与加密: 用户密码加密通过MD5.java的MD5.toMD5()就可以把一个用户的口令转换成md5编码。数据库密码的加密是通过DESEncryptUtil.java来加密的。首先是产生key文件,接着是用对properties文件加密,接着配置applicationContext.xml文件,引用加密的properties和key文件。
内容之四----关键技术分析 统计图参数显示: 显示图形上系列名称、类别名称和值的是否显示通过创建StandardCategoryItemLabelGenerator对象,然后通过不同图形Renderer的setBaseItemLabelGenerator()方法设置这个对象就可以控制。
内容之五----指标体系建设 为使专利分析人员更深入地对专利信息进行有效分析,为科研人员和领导提供更准确、贴切的信息,本文在基本专利分析指标的基础上进行了一定的扩充,提供针对时间序列、区域、IPC分类、申请人、发明人等多种信息要素进行分析的分析指标体系,供用户选择。 专利分析要素:将专利基本信息,按照专利信息分析要素,分成:时效性信息、地域性信息、技术性信息、权属性信息四大类,
内容之五----指标体系建设 分析指标分类: 概况类别:年度申请量、年度增长率等 申请人相关:技术构成、区域分布等 发明人相关:技术构成、区域分布等 区域相关:区域研发力、区域技术构成等 IPC相关:区域分布、申请人构成等
内容之五----指标体系建设 中科院特定指标: 中国科学院年度专利申请量、授权量与授权率 定 义:对中国科学院各年度的专利申请数量、授权数量进行统计(1990年之前的专利申请较少,可以合并计算,也就是1985-1990年间的合并),并计算授权率(授权率=授权数量/申请数量)。 中国科学院专利授权量类别分析 定 义:对中国科学院授权数量按照不同类别 (发明、实用新型、外观设计)进行统计,并计算各类别所占比率 中国科学院年度发明专利申请量、授权量与授权率 定 义:对中国科学院各年度的发明专利申请数量、授权数量进行统计(1990年之前的可以合并计算),并计算专利授权率。 全院授权专利数量top10 定 义:对中国科学院各院属单位的专利授权数量进行统计,选出前十名的单位,并按照不同类型(发明、实用新型、外观设计)进行分类。 34、中国科学院专利法律状态分布分析
本系统的创新点 系统的B/S架构和基于Web的服务模式满足了提供泛在和实时网络信息服务的需求 通过建立全文索引和数据库优化等措施实现了对海量专利数据进行快速检索与统计分析 对自定义数据清洗和分类作了一定的探索 利用JFreeChart改善了用户体验和交互性 对专利分析指标做了一定的拓展。
下一步展望 系统功能尚不完备,特别是自定义功能较薄弱,无论是个性化的数据清洗工作还是自定义的分析策略功能的实现都还有待进一步提高。 一些设计的功能并没有完全实现,如对比分析功能,另外受限于专利源数据,引证分析和聚类分析功能等功能无法完成。 无论在分析指标体系建设还是可视化输出上,都还有很多的工作要做,
今后的展望 加强利用自然语言处理和语义技术等领域的创新改善专利分析工具的性能,研究在特定领域内对专利文献进行全方位的语义标注的基础上进行更精准的特定领域专利检索与分析。 加强与其他专利分析、情报分析平台的集成融汇,利用相关的开源技术和资源接口,增强分析平台的性能,特别是通过Web services与其他服务集成等,增强与其他类型文献的关联分析能力 进一步完善专利分析系统中的分析指标体系,提供自定义清洗规则、自定义字段、自定义格式和自定义指标等多种个性化的功能等。 选择性能更强大的Web可视化技术,实现可以与用户相交互的显示模式,提供更多的图表格式和类型。
谢谢! liudj@clas.ac.cn