Jobtong系统进展&研究方向 王仲远 2007-12-09
Outline Jobtong项目介绍 Jobtong系统进展 Jobtong应用 Jobtong上的研究问题 Jobtong的下一步
什么是Deep Web? Web按照信息“深度”划分,可以分为Surface Web和Deep Web 静态HTML Web上的TXT文件 部分XML文件 PDF文件 ……
什么是Deep Web? Web按照信息“深度”划分,可以分为Surface Web和Deep Web Deep Web( Hidden Web ):相对于Surface Web而言 Data that lies in backend databases that are only accessible through HTML forms 截至2004年,Deep Web的网站数量已经达到307,000个,其背后的数据库数量已经达到366,000-535,000个 Deep Web的数据是Surface Web的500倍 主流搜索引擎例如Google、Yahoo只能够覆盖到其中32%的数据 BrightPlanet.com [1] B. Michael K. The Deep Web: Surfacing Hidden Value[R]. The Journal of Electronic Publishing from the University of Michigan, July 2001. [2] B. He, M. Patel, Z. Zhang, and K. C.-C. Chang. Accessing the Deep Web: A Survey. Communications of the ACM (CACM), 50(5):94-101, May 2007
目前的搜索引擎: “爬取&索引”
目前的网络: 需要进行数据集成
(Domain-based Data Integration for Web Databases) 如何能够有效地访问这些数据库? zhaopin.com 51job.com Jobtong! (Domain-based Data Integration for Web Databases) Biography.com bjwork.com chinahr.com myjob.com.cn
Integrate Engine using Config Jobtong系统框架 Deep Web Data Integration Internet WAP Mashup Information Provider Search WAP Search Data Process Storage Index Full Text Search Config System Search System Config Designer Distributed Crawler Integrate Engine using Config Text Mining Domain … Book Job Government News Yellow Page
基于配置文件集成系统的整体框架图 本地服务器 Deep Web XML 提供查询接口的网页 …… 配置文件 统一集成程序
基于配置文件集成系统的介绍 配置文件 Config.xml:被集成网站基本信息配置文件;
基于配置文件集成系统的介绍 配置文件 Config.xml:被集成网站基本信息配置文件; Detail.xml:查询结果详细信息配置文件;
基于配置文件集成系统的介绍 配置文件 Config.xml:被集成网站基本信息配置文件; Detail.xml:查询结果详细信息配置文件; List.xml:多个查询入口配置文件
基于配置文件集成系统的介绍 配置文件 统一集成程序 Config.xml:被集成网站基本信息配置文件; Detail.xml:查询结果详细信息配置文件; List.xml:多个查询入口配置文件 统一集成程序 查询变量:keyword=$querykeyword$ (IT,Teacher) 查询常量:orderBy=date&location=all 翻页过程:page=$pageno$ [1] [2] [3] [4] [5] ... [159] [160]
查询变量、查询常量、翻页过程 翻页变量 查询变量 查询常量 查询变量
统一集成程序的流程图 流程图讲解
Outline Jobtong项目介绍 Jobtong系统进展 Jobtong应用 Jobtong上的研究问题 Jobtong的下一步
Jobtong系统进展(1) Problem: 手工指定执行时间 工作量大 不灵活 Solution: 后台调度管理系统: Monitor
Jobtong系统进展(1) Problem: Solution: 手工指定执行时间 工作量大 不灵活 后台调度管理系统: Monitor 监控配置文件夹 发现新配置文件 自动调度已有配置文件 多线程爬取 Config文件夹 Thread Pool
Jobtong系统进展(2) Problem: Solution: 后台增加了配置文件爬取状态监控程序 爬取结果不可见 爬取状态不可见 监控配置文件的爬取状态 监控数据增长量 监控配置文件是否失效
Jobtong系统进展(3) Problem: 爬取地点不规范 无法提供高效准确索引
Jobtong系统进展(3) Problem: Solution: 对地址属性进行过滤 建立省市数据库 爬取地点不规范 无法提供高效准确索引 Solution: 对地址属性进行过滤 建立省市数据库 增加jt_joblocation关系表
Jobtong系统进展(4) Problem: Bugs Solution: Fix 内存占用更少 更加稳定 Statement未关闭 POST方式未对网页进行过滤 Solution: Fix 内存占用更少 更加稳定
New Feature Mashup 笔经&面经集成 JobLife Jobtong Bishiti.com yinjiesheng.com http://idke.ruc.edu.cn/~zhaojing/jobtong.cn/main.php?view=jobtong.JobtongIndex yinjiesheng.com miansou.com
Outline Jobtong项目介绍 Jobtong系统进展 Jobtong应用 Jobtong上的研究问题 Jobtong的下一步
Jobtong应用(1) Jobtong项目不仅仅是工作通、工作信息集成系统 Jobtong项目是一种面向领域的数据集成解决方案(Domain-oriented Deep Web Data Integration Solution)! 当一个名词被人们广泛接受的时候,它已经不再仅仅承载它本身的意思,它有了更为丰富的内涵
Jobtong应用(2) Govtong 政府新闻领域的数据集成系统 实体识别中的数据集成 获取数据集 Web组各种实验数据的来源
Jobtong应用(3) 4800人 DBRef的初始集 DBRef Name, Homepage Authors, Papers Related-people, Related-topic …… 这些网站就成了数据源,DBRef能够呈现给用户更全面的信息 Phone, Office, Fax ……
Outline Jobtong项目介绍 Jobtong系统进展 Jobtong应用 Jobtong上的研究问题 Jobtong的下一步
Outline Jobtong项目介绍 Jobtong系统进展 Jobtong应用 Jobtong上的研究问题 Jobtong的下一步
更加强大和完善 基于配置文件的集成系统(1) 网站属性数目在不同页面是不同的 XPath不改变!
更加强大和完善 基于配置文件的集成系统(1) 网站属性数目在不同页面是不同的 Genre:/html/body/table/tr[3]/td Genre:/html/body/table/tr[2]/td 抽取出错! 3个属性 8个属性
更加强大和完善 基于配置文件的集成系统(2) New Feature:获取一个子树的所有文本信息 Company Info: /html/body/div[@id=‘company’] /html/body/div[@id=‘company’]/strong
更加强大和完善 基于配置文件的集成系统(2) New Feature:获取一个子树的所有文本信息 Company Info: /html/body/div[@id=‘company’] /html/body/div[@id=‘company’]/strong 丢失信息!
经过更加强大的配置文件功能,在更多领域上的实验, Jobtong会成为一个Deep Web数据集成的强大工具! 更加丰富的领域 Movie Cars Books 验证Jobtong方法的通用性! 经过更加强大的配置文件功能,在更多领域上的实验, Jobtong会成为一个Deep Web数据集成的强大工具! Jobtong将发布1.5版!
Q&A Thank You