国家科学图书馆: 刘丹军、赵雅娟、王晓梅、胡正银等创想通科技：阎武鹏等 2010年洛阳

Slides:

Advertisements

Similar presentations

●公司簡介. ●公司組織行銷企劃部行銷企劃部研發設計部研發設計部視覺設計部視覺設計部媒體製作部媒體製作部行動裝置部行動裝置部執行長總經理管理部本公司組織人力配置除董事長、執行長、總經理外，共有六大部門，分別為研發部 6 人、管理部 4 人、視覺設計部.

Advertisements

LOGO 第 9 章 Java Servlet 和 JSP 编程孙焘. 重点： servlet 编程原理 1 servlet 的基础类与编程实现 2 JSP 编程原理 3 JSP 的常用语法 4.

协同数据管理及数据分析专家 2013 年 07 月通达智能报表中心. 第二章引子第四章领先优势第五章应用领域第六章案例分享第三章产品介绍第一章通达信科综合实力第七章客户名单（部分）第八章系统演示.

2016年8月29日 2016年8月29日 2016年8月29日复旦大学 2006 年春参考 TOPICS.

第 9 章测试部署  9.1 测试  9.2 部署. 9.1 测试  应用测试：使用 JUnit 单元测试框架测试的目的是检验开发结果是否满足规定需求，测试是保证软件质量的一个重要手段，在软件开发过程中是不可缺少的组成部分。单元测试与集成测试分别有各自的定义：在实际开发中，两者之间的界定是模糊的。

1 网站设计理念大连理工大学创新实验学院优秀网站展示 - LAMP 类网站

淮海工学院计算机课程第 1 章 Java 入门 1.1 Java 的起源与发展 1.2 Java 程序开发与运行环境 1.3 Java 程序设计步骤 1.4 Java 程序的构成一个小游戏.

深圳市即讯科技有限公司即讯科技产品介绍公司网址： [ 联系电话： [ ， ] 联系地址： [ 深圳市南山区深南大道号南山数字文化产业基地（南山软件园）西塔 1604]

HE Fixed Assets Manage System

动态Web开发技术--JSP.

IT运维管理解决方案 -轻松管理，自在运维产品经理刘曜.

运用专利信息，为技术创新和经营保驾护航 2010年9月. 运用专利信息，为技术创新和经营保驾护航 2010年9月.

清华大学罗念龙 2004年6月集成学生系统清华大学罗念龙 2004年6月.

综合实验 ----实验选作（1/3）智能五子棋游戏 1. 实验目的

10-1 資料庫管理系統簡介 10-2 關聯式資料模式和查詢語言 10-3 Access 簡介 10-4 XML 簡介

应用性能管理提升客户体验龙珠客户案例分享肖澍云智慧公司.

基于SSH的web开发 AND 企业级WEB应用开发新技术

資料庫系統曾俊雄.

第五章網際爭霸戰 ~網站技術與經營模式大進化靜宜大學資管系楊子青

IT职业发展趋势及未来美国 .杰普软件科技有限公司

第一页是课程的标题 Spring入门示例.

第 11 章網際網路與資料庫系統.

第一章 JSP概述学习目标 JSP技术是目前WEB开发技术中应用最广泛的一种．本章对JSP技术、优点、缺点、应用前景作了简要介绍。

Web程序设计基础太原理工大学计算机科学与技术学院林福平求实创新

中国电信黔西南州教育信息平台讨论会.

J2EE Struts 和Spring 的区别.

建设数字化的卫生监督体系深圳市卫生监督所 2006年4月.

企业秘书写作主讲教师：黄巨龙.

浙江省贸促会智慧贸促金桥工程项目演示介绍

转正述职报告乐恩公司史航

精英型软件人才培养模式的探索与实践卢苇北京交通大学国家示范性软件学院.

江西省专业技术人员继续教育信息管理系统.

CDM Project Management Database Development

Microsoft .NET 第4組十月15, 2002 B 陳東傑 B 蔣佳勳

JSP程式設計基本概論歐陽芳泉 Fang-Chuan Ou Yang

主講人:黃鎮榮東方設計學院觀光與休閒事業管理系

软件设计模式与体系结构课程设计周宇 College of Information Science and Technology

第 3 章熟悉 SQL Server 的工作平台.

Arena System Technology Architecture 系统技术架构 1、Database V2(Lotus Notes)V3(Oracle8i) 2、Application Server SilverStream2.53 (Java as server side programming.

課程名稱：資料庫系統授課老師：李春雄博士

網站內容建置實務報告人：電資官鄒堡旬少校　　　.

第六章窗口系统和用户界面管理系统山东大学计算机学院.

第一章： Java Web 开发技术概述.

高级Web技术复习.

数字化校园资源管理平台、数字功能室(电子书包）解决方案

操作資料庫教授：楊維邦教授助教：黃存賢陳廷宣.

MySQL Enterprise Monitor 数据库性能优化应用

Access & MySQL 主從式資料庫系統設計實務作者：盧坤勇主從式資料庫系統 - 大綱.

JBOSS安装配置及WebWork的集成

Android盤點系統組別：第九組組員：四資工三Ｂ 4980E046 宋佩鴻四資工三Ｂ 4980E054 詹典易

Spring依赖注入及AOP简介.

第一讲 J2EE基础博和利初级培训 —开发技能.

專題J組題目：檢定考試管理系統指導老師：曾修宜老師組員：曾聖棋謝宗翰

Dr. Ming Qiu Xiamen University Software School

指導老師：楊子青老師專題組員：朱盈慈、曾孟涵、范珮錡、林佳臻

第一章 JSP概述 study-thinking-action.

封面 (资产管理软件）

第3章电子商务网站的建设流程《电子商务网站建设与管理》配套课件.

电子商务王素凤

SDA（Standard development architecture）框架介绍

指導教授：徐濟世博士專題組員：吳秀娟劉繡禎趙玉堂簡孟嬋

基于struts和hibernate的网上新闻发布系统

第 1 章簡介XML.

Java Server Faces 参考书籍 Java Server Faces 核心编程.

第十二章学习使用Ant Apache Ant是一个基于Java的构建工具，它可以会构建多种项目，但是目前主要被用于Java项目的构建， Ant是用Java语言编写，可以在多个操作系统中运行，目前在绝大部分的Java开源项目中，都选择使用Ant作为构建项目的工具，Ant已经成为Java开源项目构建的事实标准，而且越来.

教育部特殊教育通報網學生異動、接收操作說明.

課程名稱：資料庫系統授課老師：李春雄博士

----以《西北民族音乐学术资源数据库》为例西安音乐学院景月亲

第1章 HTML基础主讲人：刘泰然经济管理学院.

Presentation transcript:

国家科学图书馆: 刘丹军、赵雅娟、王晓梅、胡正银等创想通科技：阎武鹏等 2010年洛阳中国科学院专利在线分析平台系统设计国家科学图书馆: 刘丹军、赵雅娟、王晓梅、胡正银等创想通科技：阎武鹏等 2010年洛阳

专利的价值现代社会是信息社会，有学者提出：在某种意义上，信息资源已经取代化石类资源，成为现代文明社会中最重要的战略资源之一。而在各种信息资源中,专利信息资源是由各国政府和组织认可的，“专利统计为技术变革过程分析提供了唯一的源泉，就数据质量、可获性及详细的产业、组织和技术细节而言，任何其它数据均无法与专利相媲美。”

专利利用的现状我国自1985年实施专利制度以来，截至2009年3月，已累计授权专利2597904件。面对专利信息的飞速增长，我国专利信息利用的状况并不乐观。我国企业的专利文献利用率只有35.4%，而日本企业为92%。

专利分析技术 (l)数据整理和概念分组。 (2)列表或直方图。 (3)共现比较矩阵(CooeeurreneyMatriees)。 (4)有结构数据聚类。 (5)无结构数据聚类。 (6)文档聚类地图。 (7)引文分析。 (8)“主语/行为/宾语” Subjeetlaetion/objeetSAO)。

国外专利分析软件 Derwent Analytics： Delphion： Aureka： SciFinder： STN Express with Discover： STN AnaVist：INAS： M-CAMDOORS Vivisimo: OmniViz: Knowledgist：

国内专利分析软件目前国内的很多机构和公司也开始介入专利分析工具的研发，比较成熟的有：北京东方灵盾科技有限公司与M—CAM合作的专利检索及战略分析平台East Linden Doors工具，保定大为公司的PatentEX专利信息创新平台、北京彼速信息技术公司的经纬线专利分析系统、国知局下属知识产权出版社开发的专利信息分析系统、恒和顿的HIT-恒库以及我国台湾连颖公司开发的PatentGuide等。

专利分析技术的发展趋势一、语义与智能: 越来越多的软件开发商将自然语言处理、人工智能和语义技术等领域的创新应用于专利分析工具中。如欧盟资助的PATExpert项目，以及BioPatentMiner平台。二、细分与融合:软件开发商不再自己开发所有的模块而是各有侧重。分别在文本挖掘、数据处理和分析结果的可视化上下工夫。三、泛在化: 不再是单机光盘版和席位制度，专利分析工具已经日益向泛在化和网络化发展。四、个性化: 很多专利分析系统在分析指标体系、数据清洗规则等方面也提供自定义字段、自定义格式和自定义指标等多种个性化的功能等。五、交互与可视化:现在有越来越多的分析工具在分析结果的可视化输出上取得突破，不少工具还可以将专利和其他类型的文献进行关联分析。

二、论文主要内容相关技术介绍整体构架与开发环境设计基于Mysql的数据库设计工作流程与业务模块设计关键技术分析指标体系建设

相关技术介绍建设本专利在线分析系统中涉及到的相关技术主要有：基于开源软件的数据库技术、系统平台技术、开发环境的J2EE技术、AJAX技术、基于Lucene的全文检索技术、基于JFreeChart的可视化技术。

相关技术介绍 MySQL:是一个开源的关系型数据库管理系统，目前被广泛地应用在Internet上的中小型网站中，是一个真正的多用户、多线程SQL数据库服务器。MySQL由一个服务器守护程序mysqld和很多不同的客户程序和库组成；mysql遵循SQL:2003标准，支持子查询、Unicode、视图、存储过程和触发器等。 Ubuntu 是一个更新迅速且稳定可靠的 Linux 子项目，囊括了大量精选自 Debian版的软件包，同时保留了Debian 强大的软件包管理系统，提供了一个健壮、功能丰富的计算环境，支持各种架构，相关的任务均需使用Sudo指令 ,内置支持Java的开发，包括Tomcat 6.0和OpenJDK ；支持虚拟化KVM技术。

相关技术介绍随着互连网络和企业信息化的飞速发展，HTTP、XML和Java平台逐渐演变成为针对主流应用开发的平台，由SUN为首的众多知名厂商共同制定的J2EE(Java2 Platform EnterpriseEdition)平台规范则为企业开发新应用提供了事实上统一的标准。 J2EE体系结构提供中间层集成框架和统一的开发平台保证了产品的易用性、高可靠性以及扩展性的需求。同时完全支持Enterprise JavaBeans和XML，支持Servlets和JSP。有良好的可移植性，只需开发一次就可部署到各种操作系统、中间件、硬件平台上。

J2EE框架示意图

相关技术介绍基于Lucene的全文检索技术可视化技术JFreeChart Lucene是一个开源的全文检索引擎工具包，2001年成为apache软件基金会jakarta的一个子项目，是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene为软件开发人员提供一个简单易用的工具包，以便在系统中实现全文检索的功能。可视化技术JFreeChart JFreeChart是一个开源的java图形解决方案，其主要显示图型有：饼图、柱状图、线图、区域图、分布图、混合图、甘特图以及一些仪表盘等。JFreeChart可用于Servlet、JSP、Applet、Java Appication 等环境中，通过 JDBC 可动态显示任何数据库数据，并可导出成PNG和JPEG格式。

整体构架与开发环境系统设计的总体思路：是以满足用户个性化使用为目标，实现从专利数据特征项到分析指标，再到分析结果的可视化输出，最终实现海量数据检索与分析统计、用户个性化分析主题建设以及分析结果可视化的有机集成。

系统开发示意图

系统整体体系结构设计是基于MVC原理实现，共分DAO层、SERVICE层、ACTION层和WEB层。DAO层是靠hibernate来实现，SERVICE层是靠Springs来实现，ACTION层是靠Struts2来实现。专利系统是以Struts2的插件形式与Spring2进行整合，统计图采用jfreechart来实现。检索引擎使用的是Lucene实现的，定义了索引文件格式，使得兼容系统或者不同平台的应用能够共享建立的索引文件

后台工作流程控制器（action）业务逻辑组件工厂业务逻辑组件 DAO组件 DAO组件工厂 Hibernate 持久层 JDBC

后台工作流程与配置在struts.xml中配置的action指定class属性时，直接指向spring的bean id,这样完成了action--bean之间的关联，由spring中对应的bean实例创建action，在action中只是调用业务逻辑组件的方法就可以。在业务逻辑方面由实现类具体实现，在业务逻辑组件中可以调用DAO组件，DAO 层的设计思路与业务逻辑层基本相同，DAO层是由多个DAO组件和一个DAO工厂组成，DAO组件的实现类似于业务逻辑组件，都是面向接口编程。 DAO工厂类提供一个缓冲池来缓存每个DAO实例，当然需要一个xml文件作为配置文件来配置所有DAO组件，工厂类里面要解析xml，通过反射创建DAO 组件实例。在hibernate.cfg.xml中配置数据库信息，连接池采用的是Proxool。

系统整体构造 Web服务器采用的操作系统式ubuntu，java采用的是jdk1.6，tomcat采用6.0版本；数据库服务器采用的操作系统式ubuntu，数据库采用的是mysql5.0；源数据服务器采用的操作系统式是windows,数据库采用的是sqlserver。

数据库整体结构采用三层数据库结构数据源数据库：通过采集国家知识产权局提供的测试样本数据，除供专利检索系统使用之外，同时可以预留扩充余地提供给包括数据挖掘等其他应用。专利检索系统镜像数据库：从上述数据源数据库同步收割数据，经过数据清洗，数据库结构的变换，同时产生lucence索引后，作为专利检索系统的数据源，以期提供最高限度的检索性能。用户个人数据表空间：根据本系统建立的专利分析指标体系，提供了30余种数据统计分析图表，为保证统计图表的表现性能，系统为每一个用户开辟了单独的表空间，作为该用户的个人数据区。该数据区上的数据,用户可以根据需要进行自定义的设定、修改或者调整。

系统示意图

开发环境构成与配置

平台数据库设计中国专利数据的DTD定义 DTD(文档类型定义Document Type Definition) 是一套关于标记符的语法规则。它是XML1.0版规的一部分,是XML文件的验证机制,属于XML文件组成的一部分。DTD 是一种保证XML文档格式正确的有效方法，包含：元素的定义规则，元素间关系的定义规则，元素可使用的属性，可使用的实体或符号规则

内容之二----数据库设计本系统的数据源数据库系统完全按照国家知识产权局的数据格式存储。而专利分析镜像数据库与个人专利数据库都采用MySQL数据库作为数据库管理系统，其中个人专利数据库是在专利分析镜像数据库基础上添加了个人信息、项目信息、分类信息、专利分析策略等表格。可以说个人专利数据库结构设计涵盖了专利分析镜像数据库。数据库中的表格基本上分为三类，分别是：专利基本信息相关表、分析主题相关表、智能分类相关表

关系视图

关系视图

业务模块设计提供对中国专利的专利检索、装载、分类、标引、分析、导出等功能，可以按照用户需求建立主题数据库；本系统可以方便科研人员、专利分析人员实现基于专利的数据检索和分析，高效利用专利信息，提高技术创新能力。管理的资源对象主要为中国国家知识产权局提供的专利数据以及相关数字资源集合，包括索引、检索策略等。系统的用户的类型与角色功能：系统用户类型总共分为3类：用户、系统管理员、数据维护人员.

功能描述与业务流程系统采用机构、用户和主题三级管理方式。机构是指使用该系统的单位, 用户是机构下具体使用在线分析系统的用户，主题则是用户定制的研究课题的专利信息集合，是在专利数据库系统中检索并建立起来的结果集。用户可以根据自己的分析需求建立多个主题。其业务全流程包括: 用户登陆, 建立专利主题，进行专利检索以抽取所需要的数据建立个人主题专利数据库, 对专主题专利数据库进行数据管理(数据规范化,数据清洗等), 进行专利分析。

总流程图

内容之三----业务模块认证管理

内容之三----业务模块数据检索: 经过用户认证后，系统默认进入数据专利检索页面，在该页面可以通过按钮选择：简单检索或高级检索，检索对象为专利数据库中的所有数据。简单检索对专利名称、申请号和摘要三个字段进行检索，结果有两种表现方式：摘要式和列表式，高级检索的表现方式为：列表式。

检索功能流程示意图

内容之三----业务模块主题管理新建一个用户后，程序自动建立一个主题组，名称为：我的主题组，在我的主题组中有一个主题，名称为：我的专利。主题管理分为两部分，左边为主题组树，右边为主题列表。主题可以进行编辑、删除、合并、移动等操作；可以在主题管理页面方便的查看各个主题的主题名称、主题中的专利件数、管理员，创建时间等相关信息；也可以对单个主题中的数据进行统计分析。

业务模块统计分析: 对选定的专利数据检索结果集按照指定的分析指标进行分析，如年度申请量、申请类型件数、申请人排行榜、发明人排行榜、国省代码排行榜等。根据分析结果和页面设定的显示设定，按照分析主题生成相应的点折线图、三维饼图、雷达图等多种图表，并可生成相应的分析数据表。

业务模块数据清理: 数据清理功能分为服务器端和用户端，服务器端指的是在将相关专利数据库的授权数据导入检索服务器时所作的工作，而用户端指用户根据自己的需要针对检索结果集中的数据所作的清洗工作。

内容之三----业务模块数据导出: 选中想要导出到其它主题中的数据，点击[导出到主题]按钮，此时将打开导出到主题窗体，在窗体中选择主题组和主题组中的主题，点击[导出]按钮，导出完成后提示导出成功。

内容之四----关键技术分析数据同步: 数据同步数据层业务的封装主要是通过Hibernate来实现的。同步过程为：把源数据（sqlserver）的数据写入mysql并且生成增量索引；为了保证每次从数据库里面检索10万条数据的海量数据检索的性能，使用了scrool()方法和setCacheMode()方法来处理大数据的查询，通过session.clear()方法来第一级缓存的大小。Mysql的写操作是每50次执行一次session.flush()和session.clear()，然后再索引。

关键技术分析：海量数据检索: Query 中使用内存选取最适用的字段属性用连接（JOIN）来代替子查询选取最适用的字段属性　用连接（JOIN）来代替子查询使用联合(UNION)来代替手动创建的临时表巧妙使用事务和锁定表

内容之四----关键技术分析安全与加密: 用户密码加密通过MD5.java的MD5.toMD5()就可以把一个用户的口令转换成md5编码。数据库密码的加密是通过DESEncryptUtil.java来加密的。首先是产生key文件，接着是用对properties文件加密,接着配置applicationContext.xml文件，引用加密的properties和key文件。

内容之四----关键技术分析统计图参数显示: 显示图形上系列名称、类别名称和值的是否显示通过创建StandardCategoryItemLabelGenerator对象，然后通过不同图形Renderer的setBaseItemLabelGenerator()方法设置这个对象就可以控制。

内容之五----指标体系建设为使专利分析人员更深入地对专利信息进行有效分析，为科研人员和领导提供更准确、贴切的信息，本文在基本专利分析指标的基础上进行了一定的扩充,提供针对时间序列、区域、IPC分类、申请人、发明人等多种信息要素进行分析的分析指标体系，供用户选择。专利分析要素：将专利基本信息，按照专利信息分析要素，分成：时效性信息、地域性信息、技术性信息、权属性信息四大类，

内容之五----指标体系建设分析指标分类：概况类别：年度申请量、年度增长率等申请人相关：技术构成、区域分布等发明人相关：技术构成、区域分布等区域相关：区域研发力、区域技术构成等 IPC相关：区域分布、申请人构成等

内容之五----指标体系建设中科院特定指标: 中国科学院年度专利申请量、授权量与授权率定义：对中国科学院各年度的专利申请数量、授权数量进行统计（1990年之前的专利申请较少，可以合并计算，也就是1985-1990年间的合并），并计算授权率（授权率=授权数量/申请数量）。中国科学院专利授权量类别分析定义：对中国科学院授权数量按照不同类别（发明、实用新型、外观设计）进行统计，并计算各类别所占比率中国科学院年度发明专利申请量、授权量与授权率定义：对中国科学院各年度的发明专利申请数量、授权数量进行统计（1990年之前的可以合并计算），并计算专利授权率。全院授权专利数量top10 定义：对中国科学院各院属单位的专利授权数量进行统计，选出前十名的单位，并按照不同类型（发明、实用新型、外观设计）进行分类。 34、中国科学院专利法律状态分布分析

本系统的创新点系统的B/S架构和基于Web的服务模式满足了提供泛在和实时网络信息服务的需求通过建立全文索引和数据库优化等措施实现了对海量专利数据进行快速检索与统计分析对自定义数据清洗和分类作了一定的探索利用JFreeChart改善了用户体验和交互性对专利分析指标做了一定的拓展。

下一步展望系统功能尚不完备，特别是自定义功能较薄弱，无论是个性化的数据清洗工作还是自定义的分析策略功能的实现都还有待进一步提高。一些设计的功能并没有完全实现，如对比分析功能，另外受限于专利源数据，引证分析和聚类分析功能等功能无法完成。无论在分析指标体系建设还是可视化输出上，都还有很多的工作要做，

今后的展望加强利用自然语言处理和语义技术等领域的创新改善专利分析工具的性能，研究在特定领域内对专利文献进行全方位的语义标注的基础上进行更精准的特定领域专利检索与分析。加强与其他专利分析、情报分析平台的集成融汇，利用相关的开源技术和资源接口，增强分析平台的性能，特别是通过Web services与其他服务集成等，增强与其他类型文献的关联分析能力进一步完善专利分析系统中的分析指标体系，提供自定义清洗规则、自定义字段、自定义格式和自定义指标等多种个性化的功能等。选择性能更强大的Web可视化技术，实现可以与用户相交互的显示模式，提供更多的图表格式和类型。

谢谢! liudj@clas.ac.cn