Presentation is loading. Please wait.

Presentation is loading. Please wait.

TEXEM:一种基于实体的邮件任务提取策略

Similar presentations


Presentation on theme: "TEXEM:一种基于实体的邮件任务提取策略"— Presentation transcript:

1 TEXEM:一种基于实体的邮件任务提取策略
张相於,陈继东,李玉坤,孟小峰 中国人民大学WAMDM实验室 EMC中国实验室

2 演示纲要 研究动机 相关工作 处理流程 事件提取 基于事件聚类的任务构造 任务空间向量 实验评估 总结&未来工作

3 演示纲要 研究动机 相关工作 处理流程 事件提取 基于事件聚类的任务构造 任务空间向量 实验评估 总结&未来工作

4 研究动机(1) 电子邮件数据量剧增 电子邮件作用越来越丰富 人们处理邮件的时间十分有限 现有工具不能满足需求
IDC :5 Exabyte商业邮件(1 Exabyte = 1 billion Gigabyte),2007四月。 电子邮件作用越来越丰富 任务管理,协作管理,存档管理,联系人管理…… 人们处理邮件的时间十分有限 现有工具不能满足需求 Outlook,Gmail…… 人们仍需要手工管理邮件中的任务。

5 研究动机(2) dear bhaiya i was making a list of all my contact addresses in USA. could u pls send ur complete address& ph/mobile. i am scheduled to come to US on 25th. regards gautam 三个事件: Making a list. Send your address & number Scheduled to come to US on 25th

6 研究动机(3) 我们提出一种基于实体的邮件任务提取框架——TEXEM。 充分考虑电子邮件中的结构信息。 从邮件中提取属于不同实体的任务。
对任务进行重要性评估。 提高用户邮件管理的效率。

7 演示纲要 研究动机 相关工作 处理流程 事件提取 基于事件聚类的任务构造 任务空间向量 实验评估 总结&未来工作

8 相关工作(1) Gmail,Hotmail 可以提取形式较为规范的事件信息。

9 相关工作(2) <Identifying and Understanding Dates and Times in Email>
<Information Extraction of Seminar Information> <Automated Integration with Personal Information Management Applications> <Taking to task: the design and evaluation of a task management centered tool>

10 演示纲要 研究动机 相关工作 处理流程 事件提取 基于事件聚类的任务构造 任务空间向量 实验评估 总结&未来工作

11 处理流程 事件提取 任务构造 重要性评估

12 演示纲要 研究动机 相关工作 处理流程 事件提取 基于事件聚类的任务构造 任务空间向量 实验评估 总结&未来工作

13 事件提取(1) 每句话都可能包含一个事件。 一个事件具有如下结构: Event={O, V, T, L, P, D} O:事件所有者

14 事件提取(2) 标识实意动词 标识人名 电子邮件 词性标注 事件集合 标识地名 标识时间

15 事件提取(3) 事件合并 将不含有实意动词的句子与离它最近的事件合并:He is busy tomorrow for the meeting. 事件分解 如果句子含有and或but等连词,并且连接的是分句而不是短语或词。

16 演示纲要 研究动机 相关工作 处理流程 事件提取 基于事件聚类的任务构造 任务空间向量 实验评估 总结&未来工作

17 基于事件聚类的任务构造(1) 实体识别 I,We,You。 第三人称实体。 基于实体的事件聚类 将属于某个实体的事件进行聚类。

18 基于事件聚类的任务构造(2) 实体识别 识别出I,we和you。 识别出第三人称的名字:人名,组织名。
识别出第三人称代词指代的实体:在该代词前面,并且离它最近的对应实体。 Mike is coming tomorrow, and he will bring some beers.

19 基于事件聚类的任务构造(3) 基于实体的事件聚类 基于事件构造阶段提取出来的事件所有者,进行事件聚类。 属于同一实体的事件被聚类到一起。
所有者为代词的按照上述方法识别所有者。 无法识别的事件聚到一起。

20 基于事件聚类的任务构造(2)

21 演示纲要 研究动机 相关工作 处理流程 事件提取 基于事件聚类的任务构造 任务空间向量 实验评估 总结&未来工作

22 任务空间向量(1) 每个人任务中的事件具有不同的重要性。 基于TF-IDF对任务中的事件进行排序:
Score(e) = Mean(weight(term in e)) Weight(term) = factor*(TF(term)*log(N/DF(term)))

23 任务空间向量(2)

24 演示纲要 研究动机 相关工作 处理流程 事件提取 基于事件聚类的任务构造 任务空间向量 实验评估 总结&未来工作

25 实验评估(1) 实验环境 实验平台:Java 数据集:Enron邮件数据集,1.2GB,150个用户的500 000封邮件。
词性标注:PoSTagger。 实体标注:ANNIE。

26 实验评估(2) Enron邮件数据集 在安然公司出事后为调查案件被向公共开放。 被MIT的研究者加工整理形成。 已知的最大的真实邮件数据集。

27 实验评估(3)

28 实验评估(4)

29 实验评估(5) 以人工对邮件进行处理的结果为基准值,对我们的方法从三个方面进行评估: 任务提取召回率:能够提取出多少任务。
任务评估准确率:事件排序的准确率。 实体识别准确率:能正确识别多少实体。 任务提取召回率 73.27% 任务评估准确率 54.49% 实体识别准确率 66.48%

30 演示纲要 研究动机 相关工作 处理流程 事件提取 基于事件聚类的任务构造 任务空间向量 实验评估 总结&未来工作

31 总结&未来工作 总结 未来工作 提出了一种基于实体的邮件任务提取框架。 对任务进行了重要性评估。 提高用户邮件处理的效率。
考虑更多邮件元信息。 通过合并相似事件来提高事件重要性。 处理结果的更好展示。

32 谢谢


Download ppt "TEXEM:一种基于实体的邮件任务提取策略"

Similar presentations


Ads by Google