Presentation is loading. Please wait.

Presentation is loading. Please wait.

Web挖掘与信息抽取系统.

Similar presentations


Presentation on theme: "Web挖掘与信息抽取系统."— Presentation transcript:

1 Web挖掘与信息抽取系统

2 借助数据挖掘技术,使库存成本比原来减少了3.8%
英国日用品零售商GUS需要准确预测未来的商品销售量,以便减少库存数量: 借助数据挖掘技术,使库存成本比原来减少了3.8%

3 汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户……
使营销费用减少了30%

4 发现可能存在欺诈的交易,节约了大量的调查成本
美国国防财务部需要从每年上百万的军火交易中发现可能存在的欺诈现象…… 发现可能存在欺诈的交易,节约了大量的调查成本

5 发现商品组合销售规律,提高销售率

6 我选择《货币战争》,当当又给我推荐《沉思录》、《资本战争》…

7 1Web挖掘 1.1数据挖掘概述 1.2Web挖掘方法 1.3Web挖掘应用 1.4Web数据挖掘系统 1.5发展趋势

8 1.1概述 1.1.1数据挖掘定义 狭义 数据挖掘是知识发现(KDD)过程中的一个特定步骤,是用专门算法从数据中抽取模式,然后通过解释和评价转换成最终用户可理解的知识 广义 由于KDD的其他步骤对数据挖掘的运行性能和结果正确性影响很大,因此,通常所说的数据挖掘往往包括KDD的全过程。

9 一般定义 特点 数据挖掘是从大量的、不完全的有噪声、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的以及最终可理解的模式的过程。 有效性
保证挖掘出来的信息的可靠性; 新颖性 要挖掘那些不能靠直觉发现的信息或知识 潜在有用性 发现的知识有实用价值和可实现 最终可理解性 发现的模式能被用户理解、接受、运用

10 1.1.2 数据挖掘涉及多学科领域 数据库技术 人工智能 神经网络 统计学 模式识别 知识库系统 知识获取 信息检索 高性能计算 可视化

11 1.1.3数据挖掘一般过程 数据收集:通过各种方式广泛收集用户的信息,建立必要的数据库与数据表,为数据挖掘做准备。
数据处理:对收集到的信息进行诸如去噪等操作,从而确保数据能够真实反映待要挖掘的对象。 数据变换:将经过去噪的数据进行一定的格式转换,使其适应数据挖掘系统或数据挖掘软件的处理要求 数据挖掘:利用挖掘方法对数据进行分析,挖掘出需要的各种规则、趋势、类别、模型等 模式评估:对发现的规则、趋势、类别、模型进行评估,从而保证发现的模式的正确性 知识表示 数据 收集 处理 格式 转换 数据 挖掘 模式 评估 知识 表示

12 1.1.4数据挖掘功能 数据总结 分类模型发现 聚类模型发现 关联规则发现 序列模式发现 依赖模型发现 异常和趋势发现等 数据压缩 学科分类
主题聚类发现研究热点 关联规则发现 如股市升降与突发事件的关联 序列模式发现 如DNA序列相似性发现 依赖模型发现 如发现A事件发生前一定有B事件发生 异常和趋势发现等 如:发现交易中的欺诈行为,或者根据主题词演变,发现学科研究走向等

13 1网络信息挖掘 1.1数据挖掘概述 1.2Web挖掘方法 1.3Web挖掘应用 1.4Web数据挖掘系统 1.5发展趋势

14 1.2Web挖掘 1.2.1Web挖掘(Web Data Mining) 定义
利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取蕴涵的、未知的、有潜在应用价值的信息的过程。 指从大量的Web文档集合C中发现隐含模式P的过程: C->P

15 Web挖掘与传统数据挖掘 Web挖掘 传统挖掘 挖掘对象 类型 大量、异质、分布的Web文档。 结构化数据。 挖掘 所得模式
关于内容的。 预处理 过程 半结构或无结构数据,预处理过程复杂、重要。 结构化数据,预处理简单。

16 Web挖掘与Web信息检索 Web挖掘 Web信息检索 方法论 随机的,其结果独立于用户信息需求,也是用户无法预知的。
目标驱动的,用户需要明确提出查询要求 目的 帮助用户发现文档中隐含的知识。 在于帮助用户发现资源 着眼点 试图更多地理解其内容和结构。 着重于文档中显式存储的字词和链接; 评价方法 收益(Gain) 置信度(Certainty) 简洁性(Simplicity) 精度(Precision) 召回率(Recall)

17 1.2.2Web挖掘分类 Web内容挖掘 Web结构挖掘 Web使用挖掘

18 Web内容挖掘 挖掘策略 面临问题 什么是Web内容挖掘 从网络的内容、数据、文档中发现有用信息的过程。
利用搜索引擎技术直接挖掘文档的内容; 在搜索引擎等工具处理基础上做进一步的处理,以便获得更为精确和有用的信息。 面临问题 挖掘算法效率和可扩展性问题 信息遗漏及噪声数据的处理问题 私有数据保护问题 数据安全问题等

19 Web内容挖掘 主要应用研究内容 文本摘要 文本分类 文本聚类 关联分析 分布分析 趋势预测

20 Web内容挖掘 文本摘要 从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。 有篇首截取法、上下文截抽取法、论题句抽取法、仿人法等。

21 Web内容挖掘 文本分类 文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。
Yahoo!采用人工分类,大大影响了索引的页面数目。 利用自动文本分类技术可以对大量文档进行快速、有效分类,大型搜索引擎都采用自动分类技术。

22 Web内容挖掘 文本聚类 文本聚类是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小。
“聚类假设” 与用户查询相关的文档通常会聚类得比较靠近,而远离与用户查询不相关的文档。 意义 利用文本聚类技术将搜索引擎的检索结果划分为若干个簇,用户只需要考虑那些相关的簇,大大缩小了所需要浏览的结果数量。

23 Web内容挖掘 关联分析 从文档集合中找出不同词语之间的关系。 实例:
有人提出一种算法,可以从大量文档中发现一对词语同时出现的模式,利用该算法可在Web上寻找作者和书名的出现模式,从而发现了若干本在Amazon网站上找不到的新书籍。 以Web上的电影介绍作为测试文档,通过使用OEM模型从页面中抽取词语,进而得到一些关于电影名称、导演、演员、编剧的出现模式。 从科技论文中挖掘主题词演变模式,发现学科发展趋势。

24 Web内容挖掘 分布分析 指通过对文档的分析,得到特定数据在某个历史时刻的分布情况。 实例:
Feldman等人使用多种分布模型对路透社的两万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对分布情况。

25 Web内容挖掘 趋势预测 指通过对文档的分析,得到特定数据将来的取值趋势。 实例
Wuthrich等人通过分析Web上出版的权威性经济文章,对每天的股票市场指数进行预测,取得了良好的效果。

26 Web结构挖掘 挖掘对象 目标 网站中超级链接结构之间的关系,它体现了文档之间的逻辑关系,与文档所处位置无关。

27 Web结构挖掘 Web结构图 G=(V,E) V是页面的集合,构成图的顶点; E是页面之间的超链集合,构成图的边。

28 Web结构挖掘 结构挖掘的主要方法 ARC CLEVER PageRank HITS
一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面很可能是重要的;一个页面的重要性被均分并被传递到它所引用的页面 HITS 衡量网页重要性有两个要素(ranking):权威级别(依赖于指向它的页面)、中心级别(依赖于它指向别人的页面) ARC 基于主题相关性的挖掘,同时考虑锚点文字。 CLEVER 在计算网页权威度与中心度时,保留相关节点,裁剪无关节点。

29 Web使用挖掘 挖掘对象 挖掘目的 挖掘方法 用户网络交互过程中产生的数据 帮助人们理解用户行为和Web结构之间得关联;
如服务器访问记录、日志记录、用户对话或交易信息、用户提问式等。 挖掘目的 帮助人们理解用户行为和Web结构之间得关联; 指导网站建设,改善网站服务效果。 挖掘方法 一般访问模式跟踪 通过分析Web访问日志来理解访问倾向,获得Web结构信息及资源提供者分组情况。 定制使用跟踪 分析个人倾向,以便为每个用户定制符合其个人特色的web站点、资源以及信息呈现方式等。

30 一个用户访问网络路线实例

31 Bag of words、n-grams、词、短语、概念或实体、关系型数据 边界标志图(OEM)、关系型数据 图形 关系型表、图形
网络信息挖掘 网络内容挖掘 网络结构挖掘 网络使用挖掘 信息检索观点 数据库观点 数据形式 非结构化、半结构化 半结构化、数据库形式的网站 链接结构 交互形式 主要数据 文本文档、超文本文档 超文本文档 服务器日志记录 浏览器日志记录 Bag of words、n-grams、词、短语、概念或实体、关系型数据 边界标志图(OEM)、关系型数据 图形 关系型表、图形 TFIDF和变体、机器学习、统计学(包括自然语言处理) Proprietary算法、ILP、(修改后)的关联规则 Proprietary算法 机器学习、统计学、(修改后)的关联规则 归类、聚类、发掘抽取规则、发掘文本模式、建立模式 发掘高频的子结构、发掘网站体系结构 归类、聚类 站点建设、改进与管理、营销、建立用户模式

32 1网络信息挖掘 1.1数据挖掘概述 1.2Web挖掘方法 1.3Web挖掘应用 1.4Web数据挖掘系统 1.5发展趋势

33 数据挖掘应用 在金融领域中的应用 观察金融市场的变化趋势,进行贷款偿付预测和客户信用分析; 对用户群体进行识别和目标市场分析;
左图是Altos做的实时价格指数与房价指数的关联分析,可为房地产、金融机构提供参考。

34 数据挖掘应用 在电信业中的应用 通过分析用户对电信服务的使用模式,划分用户群,使营销策略更有针对性;
采用多维分析、聚类分析和孤立点分析等方法识别异常模式,追踪盗用行为; 分析呼叫数据来规划和优化网络。

35 数据挖掘应用 在销售领域的应用 有助于划分顾客群体,更精确地挑选潜在的顾客;
识别顾客购买行为,发现顾客购买模式和趋势,通过关联分析更好地进行货架摆设; 改进服务质量,获得更好的顾客忠诚度和满意程度。

36 数据挖掘应用 在医学中的应用 DNA分析 利用数据挖掘技术可以进行DNA序列间的相似搜索和比较,对同时出现的基因序列的相关分析,遗传研究中的路径分析等。

37 数据挖掘应用 在搜索引擎中的应用 对网页Links信息的挖掘,提高采集效率 通过对网页内容挖掘,实现网页的聚类、分类、自动标引
通过用户提问及操作历史记录分析,跟踪用户需求模型,提高用户的检索效果

38 情报研究—Google Trends

39 情报研究—CNKI学术趋势

40 数据挖掘应用 其他应用 银行:交叉销售分析 百货公司/超市:购物篮分析 (关联规则) 保险:交叉销售与客户流失原因分析 信用卡: 欺诈探测
电子商务: 网站日志分析 税务部门:偷漏税行为探测 警察机关:犯罪行为分析

41 1网络信息挖掘 1.1数据挖掘概述 1.2Web挖掘方法 1.3Web挖掘应用 1.4Web数据挖掘系统 1.5发展趋势

42 Net percerptions Net Perceotion 公司的主要产品。它采用了一个叫做“实时建议”的技术,让它的产品对象(主要是网站)能够根据用户以往的浏览行为,找出与之相类似的行为,从而预测该用户后续的浏览操作,为用户提供个性化的浏览建议。 由于是实时运行的,随着浏览量的增加,它会变得越来越“聪明”。

43 Accrue公司 Accrue Insight 和Accrue Hit List
Accrue Hit List是一个功能强大的Web报表分析工具,主要运用于市场分析、信息采集等方面。

44 1 网络信息挖掘 1.1数据挖掘概述 1.2Web挖掘方法 1.3Web挖掘应用 1.4Web数据挖掘系统 1.5发展趋势

45 发展趋势 未来研究重点 Web数据挖掘的内在机制研究及其实现 Web知识库的动态维护、更新
半结构、结构的文本数据、图形图像数据、多媒体数据的高效挖掘算法 研究专门用于知识发现的数据挖掘语言及其标准化 关联规则和序列模式的应用研究

46 2 信息抽取 2.1信息抽取概述 2.2与IE相关的研究活动 2.3信息抽取类型 2.4信息抽取系统介绍 2.5信息抽取系统设计
2.6信息抽取应用

47 从文本中抽取关键信息 根据模版或相关的知识资源标识出重要的信息及其相关关系 Interventions Problems
##### ####### NHS TRUST - PATIENT CASE NOTE ########:######### ####### DOB: CLEF-RMH-Entry-Key: 52A4F6DB2B46E AB Seen in General Surgical This lady who has had a mastectomy and left open capsulotomy and removal of her prosthesis was seen by me in the clinic today on behalf of XXXXXXXXXXX. She has extensive bony lymphoedema in her left arm which does not seem to be getting any better although she is more or less reconciled to the problem. The original problem was that she complained of shooting pain in the direction of ulna nerve and although there does not seem to be any evidence of local, regional or distant recurrence the pain itself warrants management in a pain clinic. XXXXXXXXX could be seen in the pain clinic at the XXXXXXX but as this would involve a lot of travelling would like to be treated nearer her home. I wonder whether it would be possible for you to investigate if there is a pain clinic available at XXXXXXXXXXX as I am sure XXXXX could be treated and benefit from its management. I have otherwise arranged for her to be seen in the clinic again in a year's time. There are no signs of recurrence at this time. 5213A4F612F1 根据模版或相关的知识资源标识出重要的信息及其相关关系 pain clinic clinic General Surgical mastectomy left open capsulotomy removal of her prosthesis management a year’s time today at this time recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant Interventions Problems Problem Site Locations Time

48 从文本中抽取关键信息 收集抽取出的信息… 也可跨越多个文档 放射报告、病理学报告,或 其它叙述性报告 Interventions
recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant a year’s time today at this time pain clinic clinic General Surgical mastectomy left open capsulotomy removal of her prosthesis management recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant a year’s time today at this time pain clinic clinic General Surgical mastectomy left open capsulotomy removal of her prosthesis management recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant a year’s time today at this time pain clinic clinic General Surgical mastectomy left open capsulotomy removal of her prosthesis management Interventions Problems Title  linespacing Images? How insure non-identifiability of images  change imaging to radiology Problem Site 来自于药品或实验中的信息 Locations Time

49 形成病历 自动实现相关事件的链接? What happened & why ? What was done & why ?
mastectomy recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant a year’s time today at this time pain clinic General Surgical mastectomy left open capsulotomy removal of her prosthesis management Interventions Problems Problem Site Locations Time evidence caused_by bony lymphoedema

50 病历摘要 只有通过许可的人才可看到人名等信息 Hospital EPR EPR Drugs Refer Tools Help 形成一个非常简短的病历摘要 CLEF-RMH-Entry-Key: 52A4F6DB2B46E Female 66 with radiation induced leukaemia since Onset age 63. Thirty three appointments to date. Problems: Aplastic anaemia, cataract, asthenia Tx:imatinib Meds: unclear CLEF-RMH-Entry-Key: 52A4F6DB2B46E Female 66 with radiation induced leukaemia since Onset age 63. Thirty three appointments to date. Problems: Aplastic anaemia, cataract, asthenia Tx:imatinib Meds: unclear Maria Sklodowska-Curie CLEF-RMH-Entry-Key: 52A4F6DB2B46E Protocol 354 Staging CT 在首页上形成一个摘要 Coryza: chest NAD: reassure URTI: wheezy: amoxycillin Anxiety: lump under arm: staging scan PEFR : 300 : PEFR : 400: CXR requested CXR Basal Consolidation: : erythromycin : Chest clear : Depression: recurrence: Paroxetine WCC OK : : rpt Rx paroxetine Pain L arm: : coproxamol Viral URTI: PEFR 350: salbutamol WCCAbnormal : : : BP, ECG NAD : Results Letters Appt Drugs BP Animate the white box-summary Remove hyperlinks Haem Chem Immu Bact Xray ECG USS

51 2.1信息抽取概述 信息抽取(Information Extraction,IE) 信息抽取是一个输入/输出过程 这些被抽取出来的数据可以
输入:未知文本信息 输出:固定格式、无二意性数据(信息) 这些被抽取出来的数据可以 直接显示给用户 存储于数据库或电子表格中以供随后分析 被用于索引系统,以便于将来进行检索访问

52 2.1信息抽取概述 IE目标 IE特点 将信息点从各种各样的文档中抽取出来,以统一的形式集成在一起,形成结构化信息。
信息抽取系统将把互联网变成巨大的数据库。 IE特点 并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。 至于哪些信息是相关的,将由系统设计时定下的领域范围而定。 IE系统关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息。

53 2.1信息抽取概述 信息检索和信息抽取对比 信息检索是从大量文献集(数据库)中找出相关子集的过程

54 2.1信息抽取概述 信息检索和信息抽取对比 信息抽取是抽取真正适合用户的那些信息片段(相关事实),并提供给用户。

55 2.1信息抽取概述 与自动文摘、文本理解比较 自动文摘和文本理解是广域的 IE是特定域的(“特定”程度需要用户协助确定)
NE识别对单文档文摘的贡献 对于基于抽取的单文档自动文摘系统来说,由于NE的意义要比普通词的意义要丰富一些,所以可以用句子包含NE与否,以及包含的个数来对句子打分,根据分值大小找出重要的句子。 对于基于理解的单文档自动文摘系统来说,由于输出的文摘句是由系统自动生成的,因此用NE作为组成句子的元素可以使句子的语义更加丰富同时又更加简练。 指代消解对单文档文摘的贡献 随着指代消解问题的解决,可以帮助我们更好的理解句子与句子之间的关系和联系,有助于单文档文摘系统对输出的文摘句进行排序,从而提高了文摘的流利性和可读性。 关系抽取 由于关系抽取不仅可以抽取实体与实体之间的关系,还可以抽取其他语法结构之间的关系,因此对于单文档自动文摘系统来说,关系的抽取不仅可以让我们更好的理解句子内部之间的关系,甚至还可以理解句子之间的关系。从而对生成文摘句以及对文摘句的排序都起到一定作用。 事件抽取 事件抽取对单文档自动文摘的贡献可以体现为两方面:一方面让系统清楚当前文章的主题事件是什么,以及还讲了那些比较重要的事件,通过这些信息,在生成文摘时对把握主题以及把握对各个事件描述的篇幅起到一定的作用,从而在提高文摘的覆盖率的同时使文摘主次分明,增强可读性;另一方面可以改变传统文摘的输出形式,以填充模板的形式输出文摘,一目了然、简明扼要。

56 2.1信息抽取概述 IE的历史 信息抽取技术的前身是文本理解,即把握整篇文档的精确内容。文本理解系统通常只在很窄的知识领域范围内运行良好,向其他新领域移植的性能却很差。 IE不求整篇理解,只求片断抽取。过去几年IE研究成果丰硕,英语和日语姓名识别的成功率达到了人类专家的水平。

57 2.1信息抽取概述 评价指标 IE技术的评测起先采用经典的信息检索(IR)评价指标,即回召率(Recall)和查准率(Precision),但稍稍改变了其定义。 准确率P=抽出的正确信息点数/所有抽出的信息点数 覆盖率R=抽出的正确信息点数/所有正确的信息点数. 综合算法: 其中是一个预设值,决定对P侧重还是对R侧重。通常设定为1 。这样用F一个数值就可很看出系统的好坏

58 2.1信息抽取概述 信息抽取分类 结构化文本抽取 半结构化文本抽取 自由式文本抽取

59 2.1信息抽取概述 结构化文本的抽取 结构化文本是一种数据库里的文本信息,或者是根据事先规定的严格格式生成的文本。
从这样的文本中抽取信息是非常容易的,准确度也高,通过描述其格式即可达到目的。

60 2.1信息抽取概述 半结构化文本的抽取 自然语言理解方法、结构化文本抽取方法对半结构文本不一定有效,抽取模式通常依赖字符和象html标记那样的分隔标志,句法和语义信息的作用则非常有限。

61 2.1信息抽取概述 自由式文本的抽取 从自由文本中析取有限的信息。例如,从报道恐怖袭击活动的新闻中析取袭击者、所属组织、地点、受害者等信息。
处理自由文本的IE系统通常使用自然语言处理技巧,其抽取规则主要建立在词或词间句法关系基础之上。 处理步骤 句法分析、语义标注、专有对象的识别(如人物、公司)和基于规则的抽取。

62 2.2与IE相关的研究活动 MUC(Message Understanding for Comprehension)
MET(Multilingual Entity Task Evaluation) ACE(Automatic Content Extraction) DUC(Document Understanding Conferences)

63 MUC (Message Understanding for Comprehension)
起源 20世纪80年代未由美国国防部DARPA ( Defense Advanced Research Projects Agency) 发起。 含义 MUC之于IE,正如TREC之于IR Message Understanding Conference Message Understanding Competition

64 MUC (Message Understanding for Comprehension)
对自由文本进行分析,标识出某一特定类型的事件,并将有关这一事件的信息填写到相应的数据模板中。 MUC测试 对电子邮件信息的抽取 对新闻文章信息抽取,主题涉及恐怖活动、国际风险投资、企业成功管理经验等。 MUC作用 对信息抽取技术方法研究以及系统评价等都起到重要的促进作用。

65 MET Multilingual Entity Task Evaluation
起源 也是DARPA发起的一个测评项目。 主要是对日语、汉语以及西班牙语等多语种新闻文献进行命名实体抽取。 MET-1和MET-2测试分别于1996年和1998年进行。

66 ACE Automatic Content Extraction
起源 这一项目由美国国家安全局(NSA),美国商务部技术管理部门(NIST),以及中央情报局(CIA)一同主管。 关注三种信息内容抽取: 网络上在线新闻 通过ASR(自动语音识别的)得到的广播新闻 通过OCR(光学字符识别)得到的报纸新闻 两个目的: 希望在自动化内容抽取基础之上,为链接分析、自动摘要等打下基础。 抽取相应信息提供给分析师,提高信息分析能力。

67 DUC Document Understanding Conferences
起源 是在DARPA的TIDES (Translingual Information Detection, Extraction, and Summarization program)基础之上发起的一个对“文本概括”进行研究测评的项目。 会议 已经进行了DUC 01-07,DUC 2008在规划之中 系统测评会议由美国商务部技术管理部门NIST管理

68 其他研究机构 国外研究机构有 国内研究机构 新加坡肯特岗数字实验室 英国谢菲尔德大学计算机系 美国BBN Technology公司 ……
台湾国立大学 中科院自动化研究所模式识别国家实验室 清华大学 北京大学 微软亚洲研究院 Intel中国研究中心 …….

69 2 信息抽取 2.1信息抽取概述 2.2与IE相关的研究活动 2.3信息抽取类型 2.4信息抽取系统介绍 2.5信息抽取系统设计
2.6信息抽取应用

70 信息抽取类型 MUC根据信息抽取内容以及所抽取出的信息的集聚水平,将信息抽取分为以下几种主要类型:
NE(Named Entity Recognition):命名实体识别 MET( Multi-lingual Entity Task):多语种实体识别 TE(Template Element):模板元素信息抽取 CO(Coreference):参照信息抽取 TR(Template Relation):模板关系信息抽取 ST(Scenario Template):情节模板信息抽取

71 NE(Named Entity Recognition)命名实体识别
MUC测评可识别、抽取人名、组织名、日期、时间、地点、货币数量、百分数等,并在文本中对这些信息进行标注。 NE具有非常直接的实用价值,它支持对文档中命名实体信息的检索。

72 NE(Named Entity Recognition) 命名实体识别
The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets"

73 MET(Multi-lingual Entity Task) 多语种实体识别

74 TE(Template Element) 模板元素信息抽取
在MUC评测中,TE系统需要能够从文本中抽取特定类型的实体信息,并将这些信息填写到预先定义的属性模板中。 例如对人物实体的模板元素抽取,需要信息抽取系统能够抽取出预先定义的人物的名称、职务、国籍等属性。

75 TE(Template Element) 模板元素信息抽取
The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" TE: the rocket is "shiny red" and “Dr. Head's brainchild”.

76 CO (Coreference) 参照信息抽取
CO涉及在进行NE或TE任务时,从文本中标识出对同一实体的不同表达方式。 例如 连接某同一实体的不同称谓。George W. Bush , US President 将某一名词和其相应的代名词进行连接。

77 CO (Coreference) 参照信息抽取
分析实体在文本中不同地方出现的情况,以及分析实体在不同场合与其它实体之间的关系有助于情节信息的抽取。 在MUC中,CO之所以得到重视,是因为它能够为创建TE和ST(见下文)打下基础。

78 CO(Coreference) 参照信息抽取
The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" TE: the rocket is "shiny red" and Head's "brainchild". CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same

79 TR (Template Relation) 模板关系抽取
TR是MUC-7定义的一项新任务,需要抽取模板元素之间的相互关系。 例如: 职员和组织之间的关系(employee_of) 产品和生产企业之间的关系(product_of) 以及公司和地区之间的关系(location_of)

80 TR (Template Relation) 模板关系抽取
The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same TE: the rocket is "shiny red" and Head's "brainchild". TR: Dr. Head works for We Build Rockets Inc.

81 ST (Scenario Template) 情节模板
主要研究点在于模板的获取 专家针对不同领域手工写模板 自动获取模板 (主流研究方向 )

82 ST (Scenario Template) 情节模板
The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same TE: the rocket is "shiny red" and Head's "brainchild". TR: Dr. Head works for We Build Rockets Inc. ST: a rocket launching event occurred with the various participants.

83 主要内容 2.1信息抽取概述 2.2与IE相关的研究活动 2.3信息抽取类型 2.4信息抽取系统 2.5信息抽取系统设计 2.6信息抽取应用

84 2.4.1 GATE 简介 Gate项目认为,典型的信息抽取包括三个过程:
GATE是University of Sheffield承担的信息抽取项目。 是纯Java语言的开源软件。 支持对XML、 RTF、 、HTML、SGML以及纯文本文档类型信息的抽取。 Gate项目认为,典型的信息抽取包括三个过程: 预处理过程 命名实体探测过程 事件探测过程

85 GATE信息抽取过程 第一步:预处理 文本格式的检查(Format Detection) 特征标记(Tokenisation)
分词 (Word Segmentation) 句法分割(Sentence Splitting) 语法标记(POS tagging)等 预处理后 将文本分解成为有一定语言意义的语言片段,并对这些语言片段进行标记,使文本能够被转换成为更易于被信息抽取系统处理的模式。

86 GATE信息抽取过程 第二步:命名实体探测 借助辞典实现人物、组织、地点、时间等命名实体的探测。
辞典中也可能会包括一些相应的指示词(如Ltd.提示公司名称)用以指示相应的实体内容。 语义标记。如ANNIE系统通过JAPE书写的规则,能够对实体进行更深入的语义标注。 实体关联。通过参照实现实体之间的联系。

87 GATE信息抽取过程 第三步:事件探测 在命名实体探测基础上,抽取某一事件中的事件信息并将事件信息与某个组织、人物或其它实体相关联,构造出事件的概貌。 完成句法分析、模板填充、模板合并、模板关联和事件探测等。

88 GATE命名实体探测

89 GATE信息抽取流程

90 2.4.2中文信息抽取系统 英文信息抽取相对成熟 GATE对中文信息抽取的支撑不足
NSL等在GATE基础之上,开发出了一个支持中文信息抽取的系统,初步解决了中文信息抽取问题。 1)缺乏对中文分词处理的良好支持。目前的版本并不能实现真正意义上的中文分词。 2)词表不够专业化,当需要在某个实际领域进行信息抽取应用的时候,GATE自身带的中文词表数量不够。 在命名实体识别过程中,JAPE规则对中文不能有效支持。由于目前的JAPE规则都是针对英文命名实体识别的,所以当我们进行中文命名实体识别的时候,相当多的中文命名实体不能被识别。

91 2.4.2中文信息抽取系统 初步解决中文信息抽取 1)缺乏对中文分词处理的良好支持。目前的版本并不能实现真正意义上的中文分词。
2)词表不够专业化,当需要在某个实际领域进行信息抽取应用的时候,GATE自身带的中文词表数量不够。 在命名实体识别过程中,JAPE规则对中文不能有效支持。由于目前的JAPE规则都是针对英文命名实体识别的,所以当我们进行中文命名实体识别的时候,相当多的中文命名实体不能被识别。

92 2.4.2中文信息抽取系统 三个中文信息抽取的主要问题 Chinese tokenizing Chinese gazetteers
Chinese named entity recognition

93 相应的处理方案 中文信息抽取 应用实例 用Java的JNI调用计算所ICTCLAS实现分词和词性标注。 Chi IE
Chi Tokenizing 用Java的JNI调用计算所ICTCLAS实现分词和词性标注。 基于GATE的英文、中文信息抽取,开发Chinese Annie组件。 中文信息抽取 Chi IE Chi Gazetteer 通过网上免费语料或自己制作获得。(目前已有英文词表95个;中文词表74个) Chi Rules 重新构造中文IE的JAPE规则。 和现有信息系统结合,比如RSS信息聚合系统。 应用实例 应用实验

94 2.4.3其他IE系统 KIM ArtEquAKT Amilcare Armadillo BioRAT
ANP(Arizona Noun Phraser) DELOS WP5: Knowledge Extraction and Semantic Interoperability TAKE: Toolkit for Agent-based Knowledge Extraction SKIF:A Distributed Knowledge Extraction Framework Based on Semantic Web Services BioMeKe :BioMedical Knowledge Extraction project

95 主要内容 2.1信息抽取概述 2.2与IE相关的研究活动 2.3信息抽取类型 2.4信息抽取系统介绍 2.5信息抽取系统设计
2.6信息抽取应用

96 IE系统设计方法 知识工程法(Knowledge Engineering Approach)
靠手工编制规则,使系统能处理特定知识领域的信息抽取。 要求编制规则的知识工程师对该知识领域有深入的了解。 开发过程耗时耗力。 自动训练法(Automatic Training Approach) 通过学习已经标记好的语料库自动获取规则,能处理没有见过的新文本。 对专业知识工程师要求不高,但需要足够数量的训练数据。 实现上比知识工程方法快

97 分装器生成 分装器(Wrapper,也译“包装器”) 分装器是一个程序,用于从特定的信息源中抽取相关内容,并以特定形式加以表示。
在网环境下,分装器的目的是把网页信息结构化,以方便进一步的处理。 建造针对网页的分装器主要有两个好处: 提高从某一特定信息源获取相关信息的能力 实现异构资源整合,支持通用语言查询

98 分装器生成 (Wrapper Generation, WG )
分装器生成方法 人工生成 手工生成分装器通常需要编写专用的代码,要花很多时间理解文档的结构并将其转换成程序代码。 例如,对Springer资源的分装 半自动化生成 使用图形向导让用户告诉系统那些信息需要抽取 全自动生成 利用机器学习的技巧,开发学习算法,设计出从非常简单到相对复杂的分装器

99 分装器生成系统简介 处理结构化和半结构化网页系统 处理半结构化和非结构化网页系统 ShopBot WIEN SoftMealy
STALKER 处理半结构化和非结构化网页系统 RAPIER SRV WHISK

100 主要内容 2.1信息抽取概述 2.2与IE相关的研究活动 2.3信息抽取类型 2.4信息抽取系统介绍 2.5信息抽取系统设计
2.6信息抽取应用

101 Junglee 目标 系统组成 利用HTML和XML混合形式表示从多个网站中获取的信息,为程序员提供一个单一数据库界面。
数据整合系统:完成数据的抽取 一组分装器:连接数据源。 一个影射器:器用预定义的影射规则,把抽取出来的数据转换成统一的格式。 一个抽取器:用字典和语言学规则从非结构化的文本中归纳出其组织结构。 数据发布系统: 负责数据库更新 服务发布等

102 Jango 目标 系统组成 处理过程 从多个购物网站抽取同一产品价格信息,供用户货比三家。
一个自然语言前端,能将用户请求转换成产品描述的逻辑表示; 一个查询路由器(query router),能判定产品类别,找出相关的一系列网站; 一个集成引擎,能平行向选定的网站提交查询; 一个过滤器,能用类似于ShopBot 的方法,把信息抽取出来。 处理过程 在学习阶段,Jango根据网上商店首页的URL和产品领域知识,学习如何在网站购物,能学得每个商店的产品描述的格式,获取价格等产品属性。 在购物阶段,这些学得的描述将被用于抽取用户指定产品信息。信息抽取是在线平行进行,结果以价格排序显示给用户。

103 其他应用 产品描述 餐厅指引 讲座通知 招聘广告 人事更迭公告 其他 ShopBot用于比价购物,所抽取的产品信息按价格排序。
STALKER被用来抽取不同网站上的餐厅信息,如餐厅名称、菜肴种类、价格、烹调方法、地址、电话和评价。 讲座通知 SRV试用在讲座信息的抽取任务上,把讲者、地点、时间等信息抽取出来。 招聘广告 RAPIER和WHISK被用于招聘广告的信息抽取。需抽取的信息点包括职位名称、工资、地点等。 人事更迭公告 WHISK曾被用于从杂志文章中抽取公司名称、职位、新任人员的姓名、卸任人的姓名。 其他 例如:租赁广告、地理信息、假日旅游信息、天气预报、参考书目信息等。

104 总结 信息抽取技术近年来得到快速发展。 自动化分装器生成是研究的难点。
信息抽取技术在网页信息抽取应用会随开放式Web融合、语义网络技术的发展而逐渐减弱。 信息抽取技术未来发展将更侧重对自由文档的信息抽取,并将与知识发现结合。

105 问题?


Download ppt "Web挖掘与信息抽取系统."

Similar presentations


Ads by Google