百度百科知识库构建 整体过程 李昊轩.

Slides:



Advertisements
Similar presentations
模板的使用 教育学 江西教育学院教育系 冯芳 2012 - 10. 第二章 教育学的产生和发展 第一节 教育学的研究对象和任务 第二节 教育学的产生与发展 第三节 学习教育学的意义与方法.
Advertisements

教育部 1 教育部技職司 南區: 2010 年 11 月 5 日 北區: 2010 年 11 月 8 日 中區: 2010 年 11 月 9 日 產學攜手合作計畫 政策宣導.
104 年度環保小學堂 經費編列注意事項 會計室 : 丁子芸 中華民國 103 年 10 月 22 日 會計室 : 丁子芸 中華民國 103 年 10 月 22 日.
用 藥 安 全 用 藥 安 全 護 理 師 張 嘉 芬. 前 言 前 言 正確用藥的方法 藥袋上的秘辛 為了減少重大疾病或是醫療處理、 用藥不當的相關事件發生。
阿尔伯特亲王 阿尔伯特亲王纪念碑 维多利亚女王夫妇 维多利亚女王一家 建造水晶宫 水晶宫初建时的照片.
急性腹痛 急性疼痛. 急性疼痛 — 孙树杰、沈洪、 刘保池 (1)(1)(1)(1) 概 述 (2)(2)(2)(2) 重症急性腹痛的临床特点 (3)(3)(3)(3) 急性腹痛的分类及诊治 主要教学内容.
當我已老 謹以此文獻給像我一樣流浪在外的子女們.
梦想启航 ——大学生活与职业规划专题讲座.
河北保定外国语学校 高三家长会.
动态网站开发 【HTTP与网络基础】 李博杰
母 婴 护 理 师 制作:小九.
2015年12月14日-2015年12月20日 缩略版.
从生命伦理学角度 对转基因食品市场准入标准及道德评价标准的研究
指導老師:羅夏美 組別:第四組 組員: 車輛二甲 蔡中銘 車輛三甲 莊鵬彥 國企二甲 陳于甄 國企二甲 詹雯晴 資傳二乙 林怡芳
以信息化带动教育现代化,打造教育的“南山质量”
职业教育.课程改革.项目课程 江苏省太仓中等专业学校校长 江苏省职业教育教学改革创新指导委员会委员 江苏省职业教育课程开发研究中心组组长
个体税收征管政策讲解 浏阳市地方税务局.
封面 2015易驾考最新分享: 科目二考试方法秘诀 文章来源:易驾考官网.
基于行业的 企业技术创新信息保障体系研究 刘 华 博士 中国科学技术信息研究所.
第四讲 1949—1991年的中苏关系 及其经验教训.
框架结构下重点考点解析 必修二中国经济史 南师附中 张倩.
“鼠标加水泥”的百货公司——武汉中百 朱巧巧 陆嘉怡 田泽宇.
合理控制索道游客流量 确保景区可持续发展 云南丽江玉龙雪山索道 陈加林 二0一五年十一月.
千里挑一的“征途” ——浅谈中国“国考”热.
研修4组 学习简报(第3期) 主编:左文玲 2015年2月7日.
潘集小学英语班 学习简报(第5期) 主编:吴婷 2016年2月28日.
中国特色社会主义政党制度 主讲:西南大学 李强 2011年12月28日.
專題報告製作 胡舉軍 助理教授 資訊管理學系 樹德科技大學
汇报大纲 一、报送系统总体介绍 二、自查及检查评分报送流程 三、自查及检查方法及关键点 四、建议及注意事项.
现场调查报告的撰写.
与领导、下级、同事的 沟通技巧.
潜能宇宙平衡法则 ——启动11.11天地人合新生命工程(分类系统) 凛然智慧(北京)教育咨询有限公司.
一年级家长学校第一课 与孩子共同成长.
IP新作 扁平美学-视界最大化.
欢迎南京市政治学科的教研同仁 光临指导.
失眠的饮食及调理 北京国济中医院
中餐烹調實習Ⅲ 第九章中國菜系介紹 林可薇 製作.
第二章 项目一:企业厂区与车间平面设计 1.
“网络问政”给九江新闻网 带来新的发展机遇 -- 九江新闻网 高立东 --.
木棉检索队 陈晓锋 罗嘉明 李雯 任利辉 何章鸿 SEWM 2007中文Web检索测评报告 木棉检索队 陈晓锋 罗嘉明 李雯 任利辉 何章鸿
新高考研究介绍 湖北省教育考试院项目研究组.
如东中专 学校文化课现状及提升举措的思考
第3讲 时间管理.
学习情境三:配置WEB服务器 服务器配置与管理.
续班指导.
高等教育出版社 工作汇报 化学化工分社 翟怡.
******班班级学习简报(第*期) 主编:*** ****年**月**日.
采购控制程序 2008年9月.
。星。星。の。承。諾。 6年15班 7號 張靖旋 作者:不明.
单位:十堰离退休职工服务中心 时间:2016年2月1日
俄语字母的发音体系 阅读规则.
氣候變遷對南台灣降雨造成之影響 研究背景 結果與討論 研究方法 結論 朱振豪1 、彭康豪1 、莊煌甲1 、邱俊彥2,* 研究目的
中国家电企业如何打造全球化品牌 黄 辉.
因特网信息的查找 学习目标 了解搜索引擎的不同分类 利用搜索引擎有效地获取信息.
让微笑伴您一生.
社会工作概论 个案工作 课程培训 深圳电大 赖小乐.
前言.
前不久看到了这样一则报道:某个大学校园里,一个大学生出寝室要给室友留一张字条,告诉他钥匙放在哪里。可是“钥匙”两个字他不会写,就问了其他寝室的同学,问了好几个,谁也不会写,没办法,只好用“KEY”来代替了。 请大家就此事发表一下自己看法。
利用共同供應契約 辦理大量訂購流程說明.
电子商务 (10) 1.
一种准确高效的领域知识图谱构建方法.
目次检索 打印 下载 文字摘录 更换背景 多窗口阅读.
南宁翰林华府 ——地中海风格与现代住宅的融合.
會 會 資 系 系 學 103年社團評鑑 高雄第一科技大學 會計資訊系第九屆系學會.
兒童及少年保護、 家庭暴力及性侵害事件、 高風險家庭 宣導與通報
如何制订幼儿园园本培训工作计划 大连亿达世纪城幼儿园 姜承华 2011年3月10日.
僅首頁出現本title即可 責任的故事(二年級) 生命最美麗動人的本能 簡報製作:瑞柑國民小學 鄭雙慧 文/ 何秀芳.
SEWM 2008中文Web检索评测报告 木棉队 魏本洁 何章鸿 毛志科 黄翀民 李浩 文胜 华南理工大学广东省计算机网络重点实验室.
Section 2-2: 4 (6), 7, 12 (14), 13, 18 (16), 21, 25, 28, 30, 36, 46, 48, 50, 54a Section 3-1: 4 (2), 5, 10, 15, 20, 29, 32 Section 4-1: 3, 7, 8,
第7章 Internet的应用.
Presentation transcript:

百度百科知识库构建 整体过程 李昊轩

Outline 页面爬取 信息抽取 实体链接

页面爬取 由于百度百科数据不提供下载,所以我们必须直接爬取百度百科的 每个词条页面。 困难: 突破百度百科的反爬虫措施 将正常页面重定向至error页面 要求验证码 屏蔽ip 充分利用网络IO资源 naive的同步式访问IO会导致网络IO的占用呈现波峰波谷的现象。 过快访问会导致百度百科的反爬虫措施出现地更频繁 为了解决上述困难,我们使用了Scrapy框架进行页面爬取。

Scrapy Scrapy是一个基于Python的网络爬虫框架 为什么使用Scrapy 关于Twisted 轻量灵活,高度可定制化 使用Twisted异步网络库提高了网络IO的使用效率 关于Twisted Twisted是一个Python实现的基于事件驱动的网络引擎框架。 当我们面对如下的环境时,事件驱动模型通常是一个好的选择: 程序中有许多任务 任务之间高度独立(因此它们不需要互相通信,或者等待彼此) 在等待事件到来时,某些任务会阻塞

事件驱动模型 在单线程同步模型中,任务按照顺序 执行。如果某个任务因为I/O而阻塞, 其他所有的任务都必须等待,直到它 完成之后它们才能依次执行。 在多线程版本中,这3个任务分别在 独立的线程中并行执行。这使得当某 个线程阻塞在某个资源的同时其他线 程得以继续执行。但程序员必须写代 码来保护共享资源,防止其被多个线 程同时访问。 在事件驱动版本的程序中,3个任务 交错执行,但仍然在一个单独的线程 控制中。当处理I/O或者其他昂贵的操 作时,注册一个回调到事件循环中, 然后当I/O操作完成时继续执行。程序 员不需要关心线程安全问题。

Scrapy Scrapy架构模仿基于MVT的Python Web框架Django。 Scrapy Engine 控制数据流处理流程与事务 处理的触发。 Scheduler 接受请求并排序列入队列并 返回请求。 Spider 用户定义的解析方法。 Item Pipeline 验证检查处理item Scrapy很多功能是用于网络爬虫的,我们并没有使用。这里主要介绍我们使用到的部分。

反反爬虫策略 动态设置user agent 禁用cookies 设置延迟下载 使用IP地址池( 代理IP) 增加一个设置user agent的中间件,每次请求都随机更换 一个 user agent 禁用cookies 设置延迟下载 防止Downloader并发请求过快 使用IP地址池( 代理IP) 增加一个设置代理的中间件,每次请求都随机更换一个代 理并且一段时间更新IP地址池

信息抽取 对20,000,000编号内的百度 百科页面进行爬取,共获得 了13,068,511个页面。 我们对这些页面抽取了以下 信息并结构化: Title & Subtitle Abstract Infobox Catalog & main text Section & paragraph Open tags Internal links Redirects

实体链接 将百度词条实体与DBpedia、Geonames进行链接 具体过程如下,输入为百度百科词条的url和title: 根据重定向信息扩展url得到url set 根据url set查询数据库得到subtitle set 对url set中每个url获取其别名得到name set 根据name set中的name将该百度百科词条链接到 DBpedia、Geonames 如果subtitle set非空则执行消歧义过程 url 根据重定向信息 拓展的url set 获取词条别名 name set 链接 entity set 查询数据库 subtitle set 消歧义

词条名称信息挖掘 百度百科词条的infobox中包含了比title更为丰富 的名称信息。 我们将百度百科词条infobox中的名称信息挖掘 出来构建了baidu name数据库。 主要方法是枚举infobox中表示名称的key。

获取词条别名 输入为url set 对于url set中的每个url,查询baidu name 数据库其和 title数据库构建key set 通过OpenCC繁简体转换扩展key set 通过 wikidata 的中英文 label 扩展key set 从key set中去掉长度过短的key title wikidata 中英文 label 长度过滤 url set 查询数据库 key set key set key set name OpenCC OpenCC

消歧义 在链接的过程中,以下的情况大量出现: 为了解决上述问题,我们在链接的最后一步进行 消歧义操作。 对于所有名叫“城关镇”的实体(精确匹配) 百度百科数据库中有143个 Dbpedia中有184个 Geonames中有22个 由此可见,同名实体在各个数据集中都比较多。此时 链接的结果为一个完全二部图,包含了大量的错误链 接,严重影响了结果的精度。 为了解决上述问题,我们在链接的最后一步进行 消歧义操作。

消歧义 消歧义的过程: 提取的特征目前比较简单: Geonames 对于每个链接 输出相似度最高的链接 百度百科词条 Dbpedia 提取当前词条与被链接实体的特征 计算特征之间的相似度 输出相似度最高的链接 提取的特征目前比较简单: 百度百科词条 title 和 subtitle (对于没有subtitle的词条,由于特征较少暂不处理) Dbpedia rdfs:label(包括处理消歧义项的括号与空格) Geonames gn:name 与 gn:alternateName parentFeature 的 gn:name 与 gn:alternateName

相似度计算 常见的计算字符串相似度的算法有 Levenshtein ratio Jaro Jaro Winkler Jacard (sum - ldist) / sum sum是指str1 和 str2 字串的长度总和 ldist是类编辑距离(替换产生的距离为2) Jaro m为str1,和str2的匹配长度 t是换位的数目 Jaro Winkler dj是两个str1 和 str2的Jaro Distance,是前缀的相同的长度,但是规定最大为4 p则是调整分数的常数,规定不能超过0.25 Jacard |S ∩ T| / |S ∪ T| Dice’s coefficient 2 * |S ∩ T| / (|S| + |T|) 戴斯相似性系数

消歧义 对于上述方法进行了小规模的测试,结果如下: 综上,在计算相似度的过程中使用Levenshtein ratio ratio的效果最好,Jacard和Dice’s coefficient其次。其 余方法几乎不可用。 综上,在计算相似度的过程中使用Levenshtein ratio 消歧义中具体用来计算相似度的方法: 对于输入的特征集合s1, s2 使用jieba对每个集合中的每个特征进行分词 去除停止词(空格、半角符号、全角符号等) 计算两个集合的最大匹配相似度作为集合间的相似度

链接结果 对提取的807,181百度百科地理相关词条进行链 接,其中 DBpedia Geonames 共有183,346个链接 共有166,054个链接 有91,004个不同的百度词条分别链接到100,391个不同的 Geonames实体

链接结果分析 对每个子分类随机抽取了10个链接人工进行校验 DBpedia Geonames 共抽取了780个链接 其中正确的链接有742个 精度约为95.13% Geonames 共抽取了689个链接 其中正确的链接有533个 精度约为77.36%

Thanks