Presentation is loading. Please wait.

Presentation is loading. Please wait.

西南大学计算机系 郭云龙 徐潇 向宇 曾维刚 李莉

Similar presentations


Presentation on theme: "西南大学计算机系 郭云龙 徐潇 向宇 曾维刚 李莉"— Presentation transcript:

1 西南大学计算机系 郭云龙 徐潇 向宇 曾维刚 李莉
微博实体与百科条目链接的多策略研究 西南大学计算机系 郭云龙 徐潇 向宇 曾维刚 李莉

2 微博实体与百科条目链接的多策略研究 2012年数据

3 微博实体与百科条目链接的多策略研究 突出用的人多。 2012年数据

4 微博实体与百科条目链接的多策略研究 新浪微博用户的最新数据,截至2012年12月底,新浪微博注册用户数已超过5亿,同比增长74%。日活跃用户数达到4620万,微博用户数与活跃用户数保持稳定增长。 2013年数据

5 微博实体与百科条目链接的多策略研究 对于海量微博数据进行挖掘

6 有助于利用社交媒体内容进行知识库的构建与扩展; 帮助用户阅读; 广告;市场; · · ·
微博实体与百科条目链接的多策略研究 “微博实体与百科条目链接”的应用: 有助于利用社交媒体内容进行知识库的构建与扩展; 帮助用户阅读; 广告;市场; · · ·

7 微博实体与百科条目链接的多策略研究 “微博实体与百科条目链接”的难点: 一对多消歧 一对零消歧 · · ·

8 Term Tweet Tweets TTT Model 微博实体与百科条目链接的多策略研究 crawler lexicon
context + tags corpus Tweets Machine Learning Statistics

9 Term Level 微博实体与百科条目链接的多策略研究 中移动 中国移动通信集团公司

10 Term Level 微博实体与百科条目链接的多策略研究 海贼王 航海王 海贼王

11 Term Level 微博实体与百科条目链接的多策略研究 猛龙 多伦多猛龙队 李仁港执导电影 猛龙(Mllen)

12 Term Level 微博实体与百科条目链接的多策略研究 奥胖 沙奎尔·奥尼尔

13 Term Level 微博实体与百科条目链接的多策略研究

14 Tweet Level 微博实体与百科条目链接的多策略研究

15 Polysemy page of Target Key on baike.baidu.com
Tweet Level 微博实体与百科条目链接的多策略研究 Polysemy page of Target Key on baike.baidu.com

16 Each target entry and labels
Tweet Level 微博实体与百科条目链接的多策略研究 Each target entry and labels

17 Build label lists for target entry
Tweet Level 微博实体与百科条目链接的多策略研究 Build label lists for target entry

18 Calculating label list’s weight by basal list.
Tweet Level 微博实体与百科条目链接的多策略研究 Calculating label list’s weight by basal list. The entry whose label list is the most weight is the real entry that target key map to.

19 Tweets Level 微博实体与百科条目链接的多策略研究

20 Tweets Level 微博实体与百科条目链接的多策略研究

21 Tweets Level 微博实体与百科条目链接的多策略研究
(2) Constructing a word-matrix for each “Key Term” (4) Computing the similarity of two words based on Mi. Matrix Matrix “Key Terms” related tweets (5) Clustering similarity- matrix M* Similarity based on the co-occurrences in the same paragraph Dividing tweets for each “Key Term” Matrix Matrix 1)Extracting words from each tweet (3) Computing the co-occurrences of two words that appear in the same tweet (6) Analyzing and Tagging in each cluster Cip

22 Tweets Level 微博实体与百科条目链接的多策略研究

23 评测结果:我们评测结过为84.99%,改进后为88.38%。
Tweets Level 微博实体与百科条目链接的多策略研究 评测结果:我们评测结过为84.99%,改进后为88.38%。

24 西南大学 计算机系 郭云龙 Email:zqlong@swu.edu.cn
Thank You ! 西南大学 计算机系 郭云龙


Download ppt "西南大学计算机系 郭云龙 徐潇 向宇 曾维刚 李莉"

Similar presentations


Ads by Google