文本分类综述王斌中国科学院计算技术研究所 2002年12月.

Slides:

Advertisements

Similar presentations

基于贝叶斯模型的多标签分类算法研究  张洛阳、毛嘉莉、刘斌、吴涛  西华师范大学. 大纲引言国内外研究现状 BR 和 CC 算法分析基于贝叶斯模型的多标签分类算法算法仿真实验及结果分析结论基于贝叶斯模型的多标签分类算法研究.

Advertisements

數位訊號處理概論 [ 音樂情感 Music Emotion ] 資工三甲 4A1G0030 李裕家 1.

陆铭 mingler.ccshu.org 第四讲 WEB检索研究(WEB IR) 陆铭 mingler.ccshu.org.

中华传统文化 ——礼俗、宗法.

Data Mining: Concepts and Techniques

Some theoretical notes on boosting

陆铭 mingler.ccshu.org 现代信息检索陆铭 mingler.ccshu.org.

質性研究資料分析電腦軟體在質性研究中的應用

Unsupervised feature learning: autoencoders

大规模机器学习算法GBDT及应用王志伟（冰逸）

Some Knowledge of Machine Learning（1）

一淘搜索算法----三桐关系搜索和推荐一淘搜索算法----三桐

Classification of Web Query Intent Using Encyclopedia 基于百科知识的查询意图获取

TALK ABOUT 数据挖掘-十大经典法 QianShi Li-Design

第四章集成学习与弱可学习理论.

資料探勘(Data Mining)及其應用之介紹

华东师范大学软件学院王科强 (第一作者), 王晓玲

一、现状与问题整体竞争能力不强服务品质不高市场秩序失范管理效率低下旅游旺季人满为患资源和环境保护不力欺客宰客的现象时有发生

Homework 2 : VSM and Summary

Relation Detection And Recognition

统计学习基础卿来云中国科学院研究生院信息学院 / 统计对研究的意义：

深層學習暑期訓練 (2017).

Visualizing and Understanding Neural Machine Translation

Some Effective Techniques for Naive Bayes Text Classification

人機介面 Character Recognition 文字辨識

毕业论文报告孙悦明

資訊管理第九章資料採礦.

报告人：张婧导师：黄德根教授学校：大连理工大学研究领域：自然语言处理

第三章生物神經網路與類神經網路類神經網路台大生工系水資源資訊系統研究室.

Source: IEEE Access, vol. 5, pp , October 2017

文本分类综述郑亚斌清华大学自然语言处理组部分内容copy自王斌老师ppt.

InterSpeech 2013 Investigation of Recurrent-Neural-Network Architectures and Learning Methods for Spoken Language Understanding University of Rouen(France)

Word-Entity Duet Representations for Document Ranking

现代信息检索 Modern Information Retrieval

國立政治大學資訊科學研究所知識系統實驗室研究生：鄭雍瑋指導教授：劉吉軒博士中華民國九十五年六月三十日

Probabilistic Neural Network (PNN)

Source: IEEE Transactions on Image Processing, Vol. 25, pp ,

深度学习（Deep Learning）.

A Study on the Next Generation Automatic Speech Recognition -- Phase 2

基于类关联规则的分类 Classification Based on Class-Association Rules

从百科类网站抽取infobox 报告人：徐波.

近期科研汇报报告人：纪爱兵.

可能受益的商业活动客户保留目标营销欺诈检测购物篮分析客户细分客户忠诚度信用打分信用风险评估营销组合管理和评估盈利能力分析

The First Course in Speech Lab

最大熵模型简介 A Simple Introduction to the Maximum Entropy Models

Artificial Intelligence - 人工智慧導論

Computer Vision Chapter 4

谈模式识别方法在林业管理问题中的应用报告人：管理工程系马宁报告地点：学研B107

API文档分析张静宣大连理工大学 2017年11月3日.

DIY Stroke Recognizer.

Advanced word vector representations

Chapter 8 Model Inference and Averaging

前向人工神经网络敏感性研究曾晓勤河海大学计算机及信息工程学院 2003年10月.

HITSCIR-TM zkli-李泽魁 March. 24, 2015

Modeler分類補充.

主講人：陳鴻文副教授銘傳大學資訊傳播工程系所日期：3/13/2010

Lecture 3 : Classification (1)

西南大学计算机系郭云龙徐潇向宇曾维刚李莉

指導老師：邱登裕老師組員：B 張萬鈞 B 鄭瑞傑 B 蔡譯陞 B 胡瑜真

序贯监督学习框架下的耀斑短期预报哈尔滨工业大学黄鑫.

資本結構影響因素之探討以上市公司為例指導老師：包倩華老師組員：張安琪連婉君.

閱讀調查- 書本不敵網路魅力 102王婉汝、莊雅鈞.

Speaker : YI-CHENG HUNG

參考資料：林秋燕曾元顯卜小蝶，Chap. 1、3 Chowdhury，Chap.9

第三章音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)

Class imbalance in Classification

WiFi is a powerful sensing medium

Homework 2 : VSM and Summary

《神经网络与深度学习》第10章模型独立的学习方式

Presentation transcript:

文本分类综述王斌中国科学院计算技术研究所 2002年12月

报告内容文本分类的定义和应用文本分类的方法文本分类的评估指标参考文献和资源

文本分类的定义和应用

定义给定分类体系，将文本分到某个或者某几个类别中。分类体系一般人工构造分类系统可以是层次结构，如yahoo! 分类模式政治、体育、军事中美关系、恐怖事件分类系统可以是层次结构，如yahoo! 分类模式 2类问题，属于或不属于(binary) 多类问题，多个类别(multi-class)，可拆分成2类问题一个文本可以属于多类(multi-label) 这里讲的分类主要基于内容很多分类体系: Reuters分类体系、中图分类

应用垃圾邮件的判定(spam or not spam) 新闻出版按照栏目分类词性标注词义排歧计算机论文的领域类别 {spam, not-spam} 新闻出版按照栏目分类类别 {政治,体育,军事,…} 词性标注类别 {名词,动词,形容词,…} 词义排歧类别 {词义1,词义2,…} 计算机论文的领域类别 ACM system H: information systems H.3: information retrieval and storage

文本分类的方法

人工方法和自动方法人工方法自动的方法(学习) 结果容易理解费时费力难以保证一致性和准确性(40%左右的准确率) 专家有时候凭空想象足球 and 联赛体育类费时费力难以保证一致性和准确性(40%左右的准确率) 专家有时候凭空想象知识工程的方法建立专家系统(80年代末期) 自动的方法(学习) 结果可能不易理解快速准确率相对高(准确率可达60%或者更高) 来源于真实文本，可信度高

文本分类的过程文本表示训练过程分类过程训练文本统计统计量特征表示学习分类器新文本 문서特征表示类别

特征抽取(feature extraction) 预处理去掉html一些tag标记禁用词(stop words)去除、词根还原(stemming) (中文)分词、词性标注、短语识别、… 词频统计 TFi,j: 特征i在文档j中出现次数，词频(Term Frequency) DFi:所有文档集合中出现特征i的文档数目，文档频率(Document Frequency) 数据清洗：去掉不合适的噪声文档或文档内垃圾数据文本表示向量空间模型降维技术特征选择(Feature Selection) 特征重构(Re-parameterisation，如LSI)

文本表示向量空间模型(Vector Space Model) M个无序标引项ti (特征)，词根/词/短语/其他每个文档dj可以用标引项向量来表示 (a1j,a2j,…,aMj) 权重计算，N个训练文档 AM*N= (aij) 相似度比较 Cosine计算内积计算

Term的粒度 Character，字：中 Word，词：中国 Phrase，短语：中国人民银行 Concept，概念同义词：开心高兴兴奋相关词cluster，word cluster：葛非/顾俊 N-gram，N元组：中国国人人民民银银行某种规律性模式：比如某个window中出现的固定模式 David Lewis等一致地认为：(英文分类中)使用优化合并后的 Words比较合适

权重计算方法布尔权重(boolean weighting) TFIDF型权重基于熵概念的权重(Entropy weighting) aij=1(TFij>0) or (TFij=0)0 TFIDF型权重 TF: aij=TFij TF*IDF: aij=TFij*log(N/DFi) TFC: 对上面进行归一化 LTC: 降低TF的作用基于熵概念的权重(Entropy weighting) 称为term i的某种熵如果term分布极度均匀：熵等于-1 只在一个文档中出现：熵等于0

特征选择(1) 基于DF Term的DF小于某个阈值去掉(太少，没有代表性) Term的DF大于某个阈值也去掉(太多，没有区分度) 信息增益(Information Gain, IG)：该term为整个分类所能提供的信息量(不考虑任何特征的熵和考虑该特征后的熵的差值)

特征选择(2) term的某种熵：该值越大，说明分布越均匀，越有可能出现在较多的类别中；该值越小，说明分布越倾斜，词可能出现在较少的类别中相对熵(not 交叉熵)：也称为KL距离(Kullback-Leibler divergence) ，反映了文本类别的概率分布和在出现了某个特定词汇条件下的文本类别的概率分布之间的距离，该值越大，词对文本类别分布的影响也大。

特征选择(3) χ2 统计量(念xi)：度量两者(term和类别)独立性的缺乏程度， χ2 越大，独立性越小，相关性越大(若AD<BC,则类和词独立, N=A+B+C+D) 互信息(Mutual Information)：MI越大t和c共现程度越大 A B C D t ~t c ~c

特征选择(4) Robertson & Sparck Jones公式其他 Odds: Term Strength:

特征选择方法的性能比较(1)

特征选择方法的性能比较(2)

特征选择方法的性能比较(3) YangYi-ming

特征重构隐性语义索引(LSI) 奇异值分解(SVD)：A=(aij)=UΣVT 取Σ对角上的前k个元素，得Σk AM*N, UM*R, ΣR*R(对角阵), VN*R, R<=MIN(M,N) 取Σ对角上的前k个元素，得Σk Ak= UkΣkVkT, Uk由U的前k列组成，Vk由V的前k列组成文档d在LSI对应的向量d’=dTUkΣ-1 在已有的LSI中增加新的word或者document，不需要重新计算 Folding-in 方法 SVD-updating方法

自动文本分类方法 Rocchio方法 Naïve Bayes kNN方法决策树方法decision tree Decision Rule Classifier The Widrow-Hoff Classifier 神经网络方法Neural Networks 支持向量机SVM 基于投票的方法(voting method)

Rocchio方法可以认为类中心向量法是它的特例 Rocchio公式分类类C中心向量的权重训练样本中正例个数文档向量的权重

Naïve Bayes Bayes公式参数计算

kNN方法一种Lazy Learning, Example-based Learning k=1, A类 k=4，B类 k=10，B类新文本 k=1, A类 k=4，B类 k=10，B类带权重计算，计算权重和最大的类。k常取3或者5。

决策树方法构造决策树 CART C4.5 (由ID3发展而来) CHAID 决策树的剪枝(pruning)

Decision Rule Learning 学习到如下规则 wheat & form  WHEAT wheat & commodity  WHEAT bushels & export  WHEAT wheat & agriculture  WHEAT wheat & tonnes  WHEAT wheat & winter & ~soft  WHEAT (粗糙集)RoughSet 逻辑表达式(AQ11算法)

The Widrow-Hoff Classifier Online Learning 类c向量的第j个分量 xi的第j个分量 Learning Rate Target Value ( 0 or 1)

Neural Network c1 . c2 . …… . . . cn Backpropagation Input Layer Output Layer Hidden Layer

支持向量机 Support Vector Machine Optimal Separating Hyperplane

基于投票的方法 Bagging方法 Boosting方法训练R个分类器fi，分类器之间其他相同就是参数不同。其中fi是通过从训练集合中(N篇文档)随机取(取后放回)N次文档构成的训练集合训练得到的。对于新文档d，用这R个分类器去分类，得到的最多的那个类别作为d的最终类别 Boosting方法类似Bagging方法，但是训练是串行进行的，第k个分类器训练时关注对前k-1分类器中错分的文档，即不是随机取，而是加大取这些文档的概率 AdaBoost AdaBoost MH

文本分类的评估指标

分类方法的评估真正对的错误 a b c d 邻接表标YES 标NO 每个类所有类： Precision=a/(a+b), Recall=a/(a+c), fallout=b/(b+d)=false alarm rate, accuracy=(a+d)/(a+b+c+d), error=(b+c)/(a+b+c+d)=1-accuracy, miss rate=1-recall F=(β2+1)p.r/(β2p+r) Break Even Point, BEP, p=r的点如果多类排序输出，采用interpolated 11 point average precision 所有类：宏平均:对每个类求值，然后平均微平均:将所有文档一块儿计算，求值真正对的错误标YES a b 标NO c d

其他分类方法 Regression based on Least Squares Fit (1991) Nearest Neighbor Classification (1992) * Bayesian Probabilistic Models (1992) * Symbolic Rule Induction (1994) Decision Tree (1994) * Neural Networks (1995) Rocchio approach (traditional IR, 1996) * Support Vector Machines (1997) Boosting or Bagging (1997)* Hierarchical Language Modeling (1998) First-Order-Logic Rule Induction (1999) Maximum Entropy (1999) Hidden Markov Models (1999) Error-Correcting Output Coding (1999) ...

参考文献

文献及其他资源 Papers Software: Corpus K. Aas and L. Eikvil. Text categorisation: A survey. Technical report, Norwegian Computing Center, June 1999 http://citeseer.nj.nec.com/aas99text.html Xiaomeng Su， “Text categorization”，Lesson Presentation Yiming Yang and Xin Liu. 1999. "A re-examination of text categorization methods." 22ndAnnual International SIGIR http://www.cs.cmu.edu/~yiming/publications.html A Survey on Text Categorization, NLP Lab, Korean U. 庞剑峰，基于向量空间模型的自反馈的文本分类系统的研究与实现，中科院计算所硕士论文，2001 黄萱菁等，独立于语种的文本分类方法，中文信息学报，2000年第6期 Software: Rainbow http://www-2.cs.cmu.edu/~mccallum/bow/ BoosTexter http://www.research.att.com/~schapire/BoosTexter/ TiMBL http://ilk.kub.nl/software.html#timbl C4.5 http://www.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html Corpus http://www.cs.cmu.edu/~textlearning

Wangbin@ict.ac.cn http://mtgroup.ict.ac.cn/~wangbin 谢谢！ Wangbin@ict.ac.cn http://mtgroup.ict.ac.cn/~wangbin