国家科学图书馆: 刘丹军、赵雅娟、王晓梅、胡正银等 创想通科技: 阎武鹏 等 2010年 洛阳

Slides:



Advertisements
Similar presentations
●公司簡介. ●公司組織 行銷 企劃部 行銷 企劃部 研發 設計部 研發 設計部 視覺 設計部 視覺 設計部 媒體 製作部 媒體 製作部 行動 裝置部 行動 裝置部 執行長 總經理 管理部 本公司組織人力配置除董事長、執行長、總經理外,共 有六大部門,分別為研發部 6 人、管理部 4 人、視覺設計部.
Advertisements

LOGO 第 9 章 Java Servlet 和 JSP 编程 孙焘. 重点: servlet 编程原理 1 servlet 的基础类与编程实现 2 JSP 编程原理 3 JSP 的常用语法 4.
协同数据管理及数据分析专家 2013 年 07 月 通达智能报表中心. 第二章 引子 第四章 领先优势 第五章 应用领域 第六章 案例分享 第三章 产品介绍 第一章 通达信科综合实力 第七章 客户名单(部分) 第八章 系统演示.
2016年8月29日 2016年8月29日 2016年8月29日 复旦大学 2006 年春 参考 TOPICS.
第 9 章 测试部署  9.1 测试  9.2 部署. 9.1 测试  应用测试:使用 JUnit 单元测试框架 测试的目的是检验开发结果是否满足规定需求,测试是保证软件质量的一个重要手段, 在软件开发过程中是不可缺少的组成部分。 单元测试与集成测试分别有各自的定义:在实际开发中,两者之间的界定是模糊的。
1 网站设计理念 大连理工大学创新实验学院 优秀网站展示 - LAMP 类网站
淮海工学院 计算机课程 第 1 章 Java 入门 1.1 Java 的起源与发展 1.2 Java 程序开发与运行环境 1.3 Java 程序设计步骤 1.4 Java 程序的构成 一个小游戏.
深圳市即讯科技有限公司 即讯科技产品介绍 公司网址: [ 联系电话: [ , ] 联系地址: [ 深圳市南山区深南大道 号 南山数字文化产业基地(南山软件园)西塔 1604]
HE Fixed Assets Manage System
动态Web开发技术--JSP.
IT运维管理解决方案 -轻松管理,自在运维 产品经理 刘曜.
运用专利信息,为技术创新 和经营保驾护航 2010年9月. 运用专利信息,为技术创新 和经营保驾护航 2010年9月.
清华大学 罗念龙 2004年6月 集成学生系统 清华大学 罗念龙 2004年6月.
综合实验 ----实验选作(1/3) 智能五子棋游戏 1. 实验目的
10-1 資料庫管理系統簡介 10-2 關聯式資料模式和查詢語言 10-3 Access 簡介 10-4 XML 簡介
应用性能管理提升客户体验 龙珠客户案例分享 肖澍 云智慧公司.
基于SSH的web开发 AND 企业级WEB应用开发新技术
資料庫系統 曾俊雄.
第五章 網際爭霸戰 ~網站技術與經營模式大進化 靜宜大學資管系 楊子青
IT职业发展趋势及未来 美国 .杰普软件科技有限公司
参考TOPICS.
第一页是课程的标题 Spring入门示例.
第 11 章 網際網路與資料庫系統.
第一章 JSP概述 学习目标 JSP技术是目前WEB开发技术中应用最广泛的一种.本章对JSP技术、优点、缺点、应用前景作了简要介绍。
Web程序设计基础 太原理工大学 计算机科学与技术学院 林福平 求实创新
中国电信 黔西南州教育信息平台讨论会.
J2EE Struts 和Spring 的区别.
建设数字化的卫生监督体系 深 圳 市 卫 生 监 督 所 2006年4月.
企业秘书写作 主讲教师:黄巨龙.
浙江省贸促会智慧贸促金桥工程项目 演示介绍
转正述职报告 乐恩公司 史航
精英型软件人才 培养模式的探索与实践 卢 苇 北京交通大学国家示范性软件学院.
江西省专业技术人员 继续教育信息管理系统.
CDM Project Management Database Development
Microsoft .NET 第4組 十月15, 2002 B 陳東傑 B 蔣佳勳
JSP程式設計 基本概論 歐陽芳泉 Fang-Chuan Ou Yang
主講人:黃鎮榮 東方設計學院觀光與休閒事業管理系
软件设计模式与体系结构课程设计 周 宇 College of Information Science and Technology
第 3 章 熟悉 SQL Server 的工作平台.
Arena System Technology Architecture 系统技术架构 1、Database V2(Lotus Notes)V3(Oracle8i) 2、Application Server SilverStream2.53 (Java as server side programming.
課程名稱:資料庫系統 授課老師:李春雄 博士
網站內容建置實務 報告人:電資官鄒堡旬少校   .
第六章 窗口系统和用户界面管理系统 山东大学计算机学院.
第一章: Java Web 开发技术概述.
高级Web技术 复 习.
数字化校园资源管理平台、数字功能室(电子书包)解决方案
操作資料庫 教授:楊維邦 教授 助教:黃存賢 陳廷宣.
MySQL Enterprise Monitor 数 据 库 性 能 优 化 应 用
Access & MySQL 主從式資料庫系統設計實務 作者:盧坤勇 主從式資料庫系統 - 大綱.
JBOSS安装配置及WebWork的集成
Android盤點系統 組別:第九組 組員:四資工三B 4980E046 宋佩鴻 四資工三B 4980E054 詹典易
Spring依赖注入及AOP简介.
第一讲 J2EE基础 博和利初级培训 —开发技能.
專題J組 題目: 檢定考試管理系統 指導老師: 曾修宜 老師 組員: 曾聖棋 謝宗翰
Dr. Ming Qiu Xiamen University Software School
指導老師:楊子青 老師 專題組員:朱盈慈、曾孟涵、范珮錡、林佳臻
第一章 JSP概述 study-thinking-action.
封面 (资产管理软件)
第3章电子商务网站的建设流程 《电子商务网站建设与管理》配套课件.
电子商务 王素凤
SDA(Standard development architecture)框架介绍
指導教授:徐濟世 博 士 專題組員: 吳秀娟 劉繡禎 趙玉堂 簡孟嬋
基于struts和hibernate的网上新 闻发布系统
第 1 章 簡介XML.
Java Server Faces 参考书籍 Java Server Faces 核心编程.
第十二章 学习使用Ant Apache Ant是一个基于Java的构建工具,它可以 会构建多种项目,但是目前主要被用于Java项目 的构建, Ant是用Java语言编写,可以在多个操 作系统中运行,目前在绝大部分的Java开源项目 中,都选择使用Ant作为构建项目的工具,Ant已 经成为Java开源项目构建的事实标准,而且越来.
教育部特殊教育通報網 學生異動、接收操作說明.
課程名稱:資料庫系統 授課老師:李春雄 博士
----以《西北民族音乐学术资源数据库》为例 西安音乐学院 景 月 亲
第1章 HTML基础 主讲人:刘泰然 经济管理学院.
Presentation transcript:

国家科学图书馆: 刘丹军、赵雅娟、王晓梅、胡正银等 创想通科技: 阎武鹏 等 2010年 洛阳 中国科学院专利在线分析平台系统设计 国家科学图书馆: 刘丹军、赵雅娟、王晓梅、胡正银等 创想通科技: 阎武鹏 等 2010年 洛阳

专利的价值 现代社会是信息社会,有学者提出:在某种意义上,信息资源已经取代化石类资源,成为现代文明社会中最重要的战略资源之一。而在各种信息资源中,专利信息资源是由各国政府和组织认可的,“专利统计为技术变革过程分析提供了唯一的源泉,就数据质量、可获性及详细的产业、组织和技术细节而言,任何其它数据均无法与专利相媲美。”

专利利用的现状 我国自1985年实施专利制度以来,截至2009年3月,已累计授权专利2597904件。面对专利信息的飞速增长,我国专利信息利用的状况并不乐观。我国企业的专利文献利用率只有35.4%,而日本企业为92%。

专利分析技术 (l)数据整理和概念分组。 (2)列表或直方图。 (3)共现比较矩阵(CooeeurreneyMatriees)。 (4)有结构数据聚类。 (5)无结构数据聚类。 (6)文档聚类地图。 (7)引文分析。 (8)“主语/行为/宾语” Subjeetlaetion/objeetSAO)。

国外专利分析软件 Derwent Analytics: Delphion: Aureka: SciFinder: STN Express with Discover: STN AnaVist:INAS: M-CAMDOORS Vivisimo: OmniViz: Knowledgist:

国内专利分析软件 目前国内的很多机构和公司也开始介入专利分析工具的研发,比较成熟的有: 北京东方灵盾科技有限公司与M—CAM合作的专利检索及战略分析平台East Linden Doors工具 ,保定大为公司的PatentEX专利信息创新平台、北京彼速信息技术公司的经纬线专利分析系统、国知局下属知识产权出版社开发的专利信息分析系统、恒和顿的HIT-恒库以及我国台湾连颖公司开发的PatentGuide等。

专利分析技术的发展趋势 一、语义与智能: 越来越多的软件开发商将自然语言处理、人工智能和语义技术等领域的创新应用于专利分析工具中。如欧盟资助的PATExpert项目,以及BioPatentMiner平台。 二、细分与融合:软件开发商不再自己开发所有的模块而是各有侧重。分别在文本挖掘、数据处理和分析结果的可视化上下工夫。 三、泛在化: 不再是单机光盘版和席位制度,专利分析工具已经日益向泛在化和网络化发展。 四、个性化: 很多专利分析系统在分析指标体系、数据清洗规则等方面也提供自定义字段、自定义格式和自定义指标等多种个性化的功能等。 五、交互与可视化:现在有越来越多的分析工具在分析结果的可视化输出上取得突破,不少工具还可以将专利和其他类型的文献进行关联分析。

二、论文主要内容 相关技术介绍 整体构架与开发环境设计 基于Mysql的数据库设计 工作流程与业务模块设计 关键技术分析 指标体系建设

相关技术介绍 建设本专利在线分析系统中涉及到的相关技术主要有:基于开源软件的数据库技术、系统平台技术、开发环境的J2EE技术、AJAX技术、基于Lucene的全文检索技术、基于JFreeChart的可视化技术。

相关技术介绍 MySQL:是一个开源的关系型数据库管理系统,目前被广泛地应用在Internet上的中小型网站中,是一个真正的多用户、多线程SQL数据库服务器。MySQL由一个服务器守护程序mysqld和很多不同的客户程序和库组成;mysql遵循SQL:2003标准,支持子查询、Unicode、视图、存储过程和触发器等。 Ubuntu 是一个更新迅速且稳定可靠的 Linux 子项目,囊括了大量精选自 Debian版的软件包,同时保留了Debian 强大的软件包管理系统,提供了一个健壮、功能丰富的计算环境,支持各种架构,相关的任务均需使用Sudo指令 ,内置支持Java的开发,包括Tomcat 6.0和OpenJDK ;支持虚拟化KVM技术。

相关技术介绍 随着互连网络和企业信息化的飞速发展,HTTP、XML和Java平台逐渐演变成为针对主流应用开发的平台,由SUN为首的众多知名厂商共同制定的J2EE(Java2 Platform EnterpriseEdition)平台规范则为企业开发新应用提供了事实上统一的标准。 J2EE体系结构提供中间层集成框架和统一的开发平台保证了产品的易用性、高可靠性以及扩展性的需求。同时完全支持Enterprise JavaBeans和XML,支持Servlets和JSP。有良好的可移植性,只需开发一次就可部署到各种操作系统、中间件、硬件平台上。

J2EE框架示意图

相关技术介绍 基于Lucene的全文检索技术 可视化技术JFreeChart Lucene是一个开源的全文检索引擎工具包,2001年成为apache软件基金会jakarta的一个子项目,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene为软件开发人员提供一个简单易用的工具包,以便在系统中实现全文检索的功能。 可视化技术JFreeChart JFreeChart是一个开源的java图形解决方案,其主要显示图型有:饼图、柱状图、线图、区域图、分布图、混合图、甘特图以及一些仪表盘等。JFreeChart可用于Servlet、JSP、Applet、Java Appication 等环境中,通过 JDBC 可动态显示任何数据库数据,并可导出成PNG和JPEG格式。

整体构架与开发环境 系统设计的总体思路: 是以满足用户个性化使用为目标,实现从专利数据特征项到分析指标,再到分析结果的可视化输出,最终实现海量数据检索与分析统计、用户个性化分析主题建设以及分析结果可视化的有机集成。

系统开发示意图

系统整体体系结构设计 是基于MVC原理实现,共分DAO层、SERVICE层、ACTION层和WEB层。DAO层是靠hibernate来实现,SERVICE层是靠Springs来实现,ACTION层是靠Struts2来实现。专利系统是以Struts2的插件形式与Spring2进行整合,统计图采用jfreechart来实现。检索引擎使用的是Lucene实现的,定义了索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件

后台工作流程 控制器(action) 业务逻辑 组件工厂 业务逻辑 组件 DAO组件 DAO组件工厂 Hibernate 持久层 JDBC

后台工作流程与配置 在struts.xml中配置的action指定class属性时,直接指向spring的bean id,这样完成了action--bean之间的关联,由spring中对应的bean实例创建action,在action中只是调用业务逻辑组件的方法就可以。 在业务逻辑方面由实现类具体实现,在业务逻辑组件中可以调用DAO组件,DAO 层的设计思路与业务逻辑层基本相同,DAO层是由多个DAO组件和一个DAO工厂组成,DAO组件的实现类似于业务逻辑组件,都是面向接口编程。 DAO工厂类提供一个缓冲池来缓存每个DAO实例,当然需要一个xml文件作为配置文件来配置所有DAO组件,工厂类里面要解析xml,通过反射创建DAO 组件实例。在hibernate.cfg.xml中配置数据库信息,连接池采用的是Proxool。

系统整体构造 Web服务器采用的操作系统式ubuntu,java采用的是jdk1.6,tomcat采用6.0版本; 数据库服务器采用的操作系统式ubuntu,数据库采用的是mysql5.0; 源数据服务器采用的操作系统式是windows,数据库采用的是sqlserver。

数据库整体结构 采用三层数据库结构 数据源数据库:通过采集国家知识产权局提供的测试样本数据,除供专利检索系统使用之外,同时可以预留扩充余地提供给包括数据挖掘等其他应用。 专利检索系统镜像数据库:从上述数据源数据库同步收割数据,经过数据清洗,数据库结构的变换,同时产生lucence索引后,作为专利检索系统的数据源,以期提供最高限度的检索性能。 用户个人数据表空间:根据本系统建立的专利分析指标体系,提供了30余种数据统计分析图表,为保证统计图表的表现性能,系统为每一个用户开辟了单独的表空间,作为该用户的个人数据区。该数据区上的数据,用户可以根据需要进行自定义的设定、修改或者调整。

系统示意图

开发环境构成与配置

平台数据库设计 中国专利数据的DTD定义 DTD(文档类型定义Document Type Definition) 是一套关于标记符的语法规则。它是XML1.0版规的一部分,是XML文件的验证机制,属于XML文件组成的一部分。DTD 是一种保证XML文档格式正确的有效方法,包含:元素的定义规则,元素间关系的定义规则,元素可使用的属性,可使用的实体或符号规则

内容之二----数据库设计 本系统的数据源数据库系统完全按照国家知识产权局的数据格式存储。而专利分析镜像数据库与个人专利数据库都采用MySQL数据库作为数据库管理系统,其中个人专利数据库是在专利分析镜像数据库基础上添加了个人信息、项目信息、分类信息、专利分析策略等表格。可以说个人专利数据库结构设计涵盖了专利分析镜像数据库。数据库中的表格基本上分为三类,分别是:专利基本信息相关表、分析主题相关表、智能分类相关表

关系视图

关系视图

业务模块设计 提供对中国专利的专利检索、装载、分类、标引、分析、导出等功能,可以按照用户需求建立主题数据库;本系统可以方便科研人员、专利分析人员实现基于专利的数据检索和分析,高效利用专利信息,提高技术创新能力。管理的资源对象主要为中国国家知识产权局提供的专利数据以及相关数字资源集合,包括索引、检索策略等。 系统的用户的类型与角色功能:系统用户类型总共分为3类:用户、系统管理员、数据维护人员.

功能描述与业务流程 系统采用机构、用户和主题三级管理方式。机构是指使用该系统的单位, 用户是机构下具体使用在线分析系统的用户,主题则是用户定制的研究课题的专利信息集合,是在专利数据库系统中检索并建立起来的结果集。用户可以根据自己的分析需求建立多个主题。其业务全流程包括: 用户登陆, 建立专利主题,进行专利检索以抽取所需要的数据建立个人主题专利数据库, 对专主题专利数据库进行数据管理(数据规范化,数据清洗等), 进行专利分析。

总流程图

内容之三----业务模块 认证管理

内容之三----业务模块 数据检索: 经过用户认证后,系统默认进入数据专利检索页面,在该页面可以通过按钮选择:简单检索或高级检索,检索对象为专利数据库中的所有数据。简单检索对专利名称、申请号和摘要三个字段进行检索,结果有两种表现方式:摘要式和列表式,高级检索的表现方式为:列表式。

检索功能流程示意图

内容之三----业务模块 主题管理 新建一个用户后,程序自动建立一个主题组,名称为:我的主题组,在我的主题组中有一个主题,名称为:我的专利。主题管理分为两部分,左边为主题组树,右边为主题列表。主题可以进行编辑、删除、合并、移动等操作; 可以在主题管理页面方便的查看各个主题的主题名称、主题中的专利件数、管理员,创建时间等相关信息;也可以对单个主题中的数据进行统计分析。

业务模块 统计分析: 对选定的专利数据检索结果集按照指定的分析指标进行分析, 如年度申请量、申请类型件数、申请人排行榜、发明人排行榜、国省代码排行榜等。根据分析结果和页面设定的显示设定,按照分析主题生成相应的点折线图、三维饼图、雷达图等多种图表,并可生成相应的分析数据表。

业务模块 数据清理: 数据清理功能分为服务器端和用户端,服务器端指的是在将相关专利数据库的授权数据导入检索服务器时所作的工作,而用户端指用户根据自己的需要针对检索结果集中的数据所作的清洗工作。

内容之三----业务模块 数据导出: 选中想要导出到其它主题中的数据,点击[导出到主题]按钮,此时将打开导出到主题窗体,在窗体中选择主题组和主题组中的主题,点击[导出]按钮,导出完成后提示导出成功。

内容之四----关键技术分析 数据同步: 数据同步数据层业务的封装主要是通过Hibernate来实现的。同步过程为:把源数据(sqlserver)的数据写入mysql并且生成增量索引;为了保证每次从数据库里面检索10万条数据的海量数据检索的性能,使用了scrool()方法和setCacheMode()方法来处理大数据的查询,通过session.clear()方法来第一级缓存的大小。Mysql的写操作是每50次执行一次session.flush()和session.clear(),然后再索引。

关键技术分析:海量数据检索: Query 中使用内存 选取最适用的字段属性 用连接(JOIN)来代替子查询 选取最适用的字段属性  用连接(JOIN)来代替子查询 使用联合(UNION)来代替手动创建的临时表 巧妙使用事务和锁定表

内容之四----关键技术分析 安全与加密: 用户密码加密通过MD5.java的MD5.toMD5()就可以把一个用户的口令转换成md5编码。数据库密码的加密是通过DESEncryptUtil.java来加密的。首先是产生key文件,接着是用对properties文件加密,接着配置applicationContext.xml文件,引用加密的properties和key文件。

内容之四----关键技术分析 统计图参数显示: 显示图形上系列名称、类别名称和值的是否显示通过创建StandardCategoryItemLabelGenerator对象,然后通过不同图形Renderer的setBaseItemLabelGenerator()方法设置这个对象就可以控制。

内容之五----指标体系建设 为使专利分析人员更深入地对专利信息进行有效分析,为科研人员和领导提供更准确、贴切的信息,本文在基本专利分析指标的基础上进行了一定的扩充,提供针对时间序列、区域、IPC分类、申请人、发明人等多种信息要素进行分析的分析指标体系,供用户选择。 专利分析要素:将专利基本信息,按照专利信息分析要素,分成:时效性信息、地域性信息、技术性信息、权属性信息四大类,

内容之五----指标体系建设 分析指标分类: 概况类别:年度申请量、年度增长率等 申请人相关:技术构成、区域分布等 发明人相关:技术构成、区域分布等 区域相关:区域研发力、区域技术构成等 IPC相关:区域分布、申请人构成等

内容之五----指标体系建设 中科院特定指标: 中国科学院年度专利申请量、授权量与授权率 定 义:对中国科学院各年度的专利申请数量、授权数量进行统计(1990年之前的专利申请较少,可以合并计算,也就是1985-1990年间的合并),并计算授权率(授权率=授权数量/申请数量)。 中国科学院专利授权量类别分析 定 义:对中国科学院授权数量按照不同类别 (发明、实用新型、外观设计)进行统计,并计算各类别所占比率 中国科学院年度发明专利申请量、授权量与授权率 定 义:对中国科学院各年度的发明专利申请数量、授权数量进行统计(1990年之前的可以合并计算),并计算专利授权率。 全院授权专利数量top10 定 义:对中国科学院各院属单位的专利授权数量进行统计,选出前十名的单位,并按照不同类型(发明、实用新型、外观设计)进行分类。 34、中国科学院专利法律状态分布分析

本系统的创新点 系统的B/S架构和基于Web的服务模式满足了提供泛在和实时网络信息服务的需求 通过建立全文索引和数据库优化等措施实现了对海量专利数据进行快速检索与统计分析 对自定义数据清洗和分类作了一定的探索 利用JFreeChart改善了用户体验和交互性 对专利分析指标做了一定的拓展。

下一步展望 系统功能尚不完备,特别是自定义功能较薄弱,无论是个性化的数据清洗工作还是自定义的分析策略功能的实现都还有待进一步提高。 一些设计的功能并没有完全实现,如对比分析功能,另外受限于专利源数据,引证分析和聚类分析功能等功能无法完成。 无论在分析指标体系建设还是可视化输出上,都还有很多的工作要做,

今后的展望 加强利用自然语言处理和语义技术等领域的创新改善专利分析工具的性能,研究在特定领域内对专利文献进行全方位的语义标注的基础上进行更精准的特定领域专利检索与分析。 加强与其他专利分析、情报分析平台的集成融汇,利用相关的开源技术和资源接口,增强分析平台的性能,特别是通过Web services与其他服务集成等,增强与其他类型文献的关联分析能力 进一步完善专利分析系统中的分析指标体系,提供自定义清洗规则、自定义字段、自定义格式和自定义指标等多种个性化的功能等。 选择性能更强大的Web可视化技术,实现可以与用户相交互的显示模式,提供更多的图表格式和类型。

谢谢! liudj@clas.ac.cn