Jobtong系统进展&研究方向 王仲远 2007-12-09.

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
LOGO 三年二班主题班会 我们的节日 —— 清明节. LOGO Page  2 《英 雄 赞 歌》 鲜花 象灿烂的火把燃烧在眼前 …… 五星红旗 象熊熊的烈焰映红了苍穹 …… 面对庄严的墓碑 我们心如潮涌 面对先烈的英灵 我们热泪盈眶 …… 耳边,仿佛还震荡着激烈的枪炮声 眼前,好像还弥漫着战斗的浓浓硝烟.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
护理学基础 第七章 医院与住院环境.
產學攜手合作計畫 楊授印 國立虎尾科技大學 推廣教育中心 主任 動力機械工程系 助理教授 民國103年10月30日.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
聞一多詩集導讀-- 《死水》與《紅燭》 系級/組別:森資一 第五組
上海市科技创业中心 (上海市高新技术成果转化服务中心) (上海市火炬高技术产业开发中心)
第九章 会计设置及机构.
基于网络的协作研究工具 问卷星 华东师范大学 宋雪莲.
区域教育信息中心工作的思考与探索 ----抓好应用建设 提升服务水平.
第一章 会计信息系统 第一节 计算机会计概述.
服务贸易等项目对外支付税务备案 2014年5月.
“云时代,云渲染” 合肥城市云渲染平台 2015年5月10日
让心与心不再遥远 康达04级临床(1)班 殷婷婷.
2011计算机类教研活动 陈国久.
国家基本药物处方集培训 ——心血管系统用药 药学部 2014年4月.
大專校院學校衛生工作 規劃與推動 國立臺灣師範大學 郭鐘隆教授.
A Leading Provider of Academic Databases
产业化经营项目 申报材料的编制审核 李峰晖 2010年10月.
学习情境2.1:实施主体的确定——资金融通的机构
教育部技職司 北區:2015年10月12日下午 南區:2015年10月16日下午
學校層級辦理補救教學 之推動重點與權責 服務單位:臺北市文山區萬芳國民小學 演 講 者:吳俊傑主任.
解决互联网上大量且无序信息的最佳途径是利用搜索引擎(search engine)
商業美學語文創藝術 公仔介紹 組別:金剛芭比.
個案分析-毒奶粉 499M0031 林佩誼 499M0034 林孟寰 499M0030 余采潔 499M0053 呂宜樺
心脏病小组与常见病小组医院见习报告 Company Logo.
第8章 信息获取与发布 《大学计算机基础》 桂林电子科技大学 陈辉金 适用教材:周娅等. 大学计算机基础.桂林:广西师范大学出版社,2013
国开学习网/形考模块
国家自然科学基金委 2012年度进展/结题报告功能培训手册
Microsoft Access 第十二組 黃彥維 陳重嘉.
ProQuest Medical Library
四川省农科院 ScienceDirect数据库使用培训
數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee
Hadoop I/O By ShiChaojie.
SciVerse ScienceDirect
Chinese Virtual Observatory
Decision Support System (靜宜資管楊子青)
Presentation by 長智文化事業有限公司 Product Specialist 鄒怡嬋
电子商务 (10) 1.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
國立中山大學30週年校慶籌備委員會 中山大學30週年校慶籌備會 第二次工作會議 03/29/2010.
Web citation Availability: A Follow-up study
第17章 网站发布.
ACM電腦相關領域全文資料庫 Presentation by iGroup Taiwan.
BEd(Special Education)
基础会计学.
Decision Support System (靜宜資管楊子青)
DevDays ’99 The aim of this mission is knowledge..
SOA – Experiment 2: Query Classification Web Service
運動競賽制度 授課教師:鄭俊傑副教授.
人社學院 通識教育中心 邱子恒 網際網路資源之檢索與評選 人社學院 通識教育中心 邱子恒
单击此处添加副标题内容 工作总结汇报PPT模板.
实体描述呈现方法的研究 实验评估 2019/5/1.
汪卫 王轶彤 老逸夫楼602-3 数据库新技术 汪卫 王轶彤 老逸夫楼602-3.
不动产统一登记信息系统简介 长沙力智数字房产技术发展有限公司.
自動化問卷製作及資料分析之 Web化調查系統
國民小學資優資源班 專 題 研 究 課 程 獅 子 王 國 的 大 探 險.
機構督導: 范盛翔 督導 實習生: 佛光大學社會學系江佳穎 實習日期: 7/1(二)~8/29(五)
教师教育科研的若干策略 21 May 2014.
DNS CACHE POISONING A 曾子桐 指導教授: 梁明章.
第六讲 酒店客房管理系统(二) 教育部“十二五”职业教育国家规划教材
Microsoft SharePoint Portal Server 2003 的部署、建置 與系統整合(上)
電子表單 簡介 高雄市鳳山區新甲國小 陳信宏.
Presentation transcript:

Jobtong系统进展&研究方向 王仲远 2007-12-09

Outline Jobtong项目介绍 Jobtong系统进展 Jobtong应用 Jobtong上的研究问题 Jobtong的下一步

什么是Deep Web? Web按照信息“深度”划分,可以分为Surface Web和Deep Web 静态HTML Web上的TXT文件 部分XML文件 PDF文件 ……

什么是Deep Web? Web按照信息“深度”划分,可以分为Surface Web和Deep Web Deep Web( Hidden Web ):相对于Surface Web而言 Data that lies in backend databases that are only accessible through HTML forms 截至2004年,Deep Web的网站数量已经达到307,000个,其背后的数据库数量已经达到366,000-535,000个 Deep Web的数据是Surface Web的500倍 主流搜索引擎例如Google、Yahoo只能够覆盖到其中32%的数据 BrightPlanet.com [1] B. Michael K. The Deep Web: Surfacing Hidden Value[R]. The Journal of Electronic Publishing from the University of Michigan, July 2001. [2] B. He, M. Patel, Z. Zhang, and K. C.-C. Chang. Accessing the Deep Web: A Survey. Communications of the ACM (CACM), 50(5):94-101, May 2007

目前的搜索引擎: “爬取&索引”

目前的网络: 需要进行数据集成

(Domain-based Data Integration for Web Databases) 如何能够有效地访问这些数据库? zhaopin.com 51job.com Jobtong! (Domain-based Data Integration for Web Databases) Biography.com bjwork.com chinahr.com myjob.com.cn

Integrate Engine using Config Jobtong系统框架 Deep Web Data Integration Internet WAP Mashup Information Provider Search WAP Search Data Process Storage Index Full Text Search Config System Search System Config Designer Distributed Crawler Integrate Engine using Config Text Mining Domain … Book Job Government News Yellow Page

基于配置文件集成系统的整体框架图 本地服务器 Deep Web XML 提供查询接口的网页 …… 配置文件 统一集成程序

基于配置文件集成系统的介绍 配置文件 Config.xml:被集成网站基本信息配置文件;

基于配置文件集成系统的介绍 配置文件 Config.xml:被集成网站基本信息配置文件; Detail.xml:查询结果详细信息配置文件;

基于配置文件集成系统的介绍 配置文件 Config.xml:被集成网站基本信息配置文件; Detail.xml:查询结果详细信息配置文件; List.xml:多个查询入口配置文件

基于配置文件集成系统的介绍 配置文件 统一集成程序 Config.xml:被集成网站基本信息配置文件; Detail.xml:查询结果详细信息配置文件; List.xml:多个查询入口配置文件 统一集成程序 查询变量:keyword=$querykeyword$ (IT,Teacher) 查询常量:orderBy=date&location=all 翻页过程:page=$pageno$ [1] [2] [3] [4] [5] ... [159] [160]

查询变量、查询常量、翻页过程 翻页变量 查询变量 查询常量 查询变量

统一集成程序的流程图 流程图讲解

Outline Jobtong项目介绍 Jobtong系统进展 Jobtong应用 Jobtong上的研究问题 Jobtong的下一步

Jobtong系统进展(1) Problem: 手工指定执行时间 工作量大 不灵活 Solution: 后台调度管理系统: Monitor

Jobtong系统进展(1) Problem: Solution: 手工指定执行时间 工作量大 不灵活 后台调度管理系统: Monitor 监控配置文件夹 发现新配置文件 自动调度已有配置文件 多线程爬取 Config文件夹 Thread Pool

Jobtong系统进展(2) Problem: Solution: 后台增加了配置文件爬取状态监控程序 爬取结果不可见 爬取状态不可见 监控配置文件的爬取状态 监控数据增长量 监控配置文件是否失效

Jobtong系统进展(3) Problem: 爬取地点不规范 无法提供高效准确索引

Jobtong系统进展(3) Problem: Solution: 对地址属性进行过滤 建立省市数据库 爬取地点不规范 无法提供高效准确索引 Solution: 对地址属性进行过滤 建立省市数据库 增加jt_joblocation关系表

Jobtong系统进展(4) Problem: Bugs Solution: Fix 内存占用更少 更加稳定 Statement未关闭 POST方式未对网页进行过滤 Solution: Fix 内存占用更少 更加稳定

New Feature Mashup 笔经&面经集成 JobLife Jobtong Bishiti.com yinjiesheng.com http://idke.ruc.edu.cn/~zhaojing/jobtong.cn/main.php?view=jobtong.JobtongIndex yinjiesheng.com miansou.com

Outline Jobtong项目介绍 Jobtong系统进展 Jobtong应用 Jobtong上的研究问题 Jobtong的下一步

Jobtong应用(1) Jobtong项目不仅仅是工作通、工作信息集成系统 Jobtong项目是一种面向领域的数据集成解决方案(Domain-oriented Deep Web Data Integration Solution)! 当一个名词被人们广泛接受的时候,它已经不再仅仅承载它本身的意思,它有了更为丰富的内涵

Jobtong应用(2) Govtong 政府新闻领域的数据集成系统 实体识别中的数据集成 获取数据集 Web组各种实验数据的来源

Jobtong应用(3) 4800人 DBRef的初始集 DBRef Name, Homepage Authors, Papers Related-people, Related-topic …… 这些网站就成了数据源,DBRef能够呈现给用户更全面的信息 Phone, Office, Fax ……

Outline Jobtong项目介绍 Jobtong系统进展 Jobtong应用 Jobtong上的研究问题 Jobtong的下一步

Outline Jobtong项目介绍 Jobtong系统进展 Jobtong应用 Jobtong上的研究问题 Jobtong的下一步

更加强大和完善 基于配置文件的集成系统(1) 网站属性数目在不同页面是不同的 XPath不改变!

更加强大和完善 基于配置文件的集成系统(1) 网站属性数目在不同页面是不同的 Genre:/html/body/table/tr[3]/td Genre:/html/body/table/tr[2]/td 抽取出错! 3个属性 8个属性

更加强大和完善 基于配置文件的集成系统(2) New Feature:获取一个子树的所有文本信息 Company Info: /html/body/div[@id=‘company’] /html/body/div[@id=‘company’]/strong

更加强大和完善 基于配置文件的集成系统(2) New Feature:获取一个子树的所有文本信息 Company Info: /html/body/div[@id=‘company’] /html/body/div[@id=‘company’]/strong 丢失信息!

经过更加强大的配置文件功能,在更多领域上的实验, Jobtong会成为一个Deep Web数据集成的强大工具! 更加丰富的领域 Movie Cars Books 验证Jobtong方法的通用性! 经过更加强大的配置文件功能,在更多领域上的实验, Jobtong会成为一个Deep Web数据集成的强大工具! Jobtong将发布1.5版!

Q&A Thank You