分类 IRLAB.

Slides:



Advertisements
Similar presentations
模板的使用 教育学 江西教育学院教育系 冯芳 2012 - 10. 第二章 教育学的产生和发展 第一节 教育学的研究对象和任务 第二节 教育学的产生与发展 第三节 学习教育学的意义与方法.
Advertisements

天然 養生 樂活 年貨集錦 田森館 - 艾草之家. ‧環保健康生活小常識 : 日常使用的家中日用品,包含各種各樣的化學物質,這些化學物質,有些頗具 毒性,有些雖然沒有急毒性,但暴露日久卻會造成慢性中毒,導致健康受損, 甚至致命。 環境荷爾蒙會影響人類或其他生物的生殖能力與發育,其中一類的「壬基酚 (
index 目次 ( 請按一下滑鼠,解答就會出現喔 !) 接續下頁解答 3-1 極限的概念.
用 藥 安 全 用 藥 安 全 護 理 師 張 嘉 芬. 前 言 前 言 正確用藥的方法 藥袋上的秘辛 為了減少重大疾病或是醫療處理、 用藥不當的相關事件發生。
第八章 土地行政管理.
「互联网金融2.0时代」与房地产的融合 广州互联网金融协会会长、广州e贷总裁 方颂.
企业会计学(三) 人大版本 吕 昌.
報告書名:父母會傷人 班級:二技幼四甲 姓名:吳婉如 學號:1A2I0034 指導老師:高家斌
关于市场营销的分析 ——以九阳豆浆机为例 品牌经营——让每一个家庭都拥有一台九阳豆浆机 营销管理——采取文化、概念、网络等营销组合
據點考核與評鑑 報告人:臺南市政府 照顧服務管理中心.
會計資訊系統 專章A.
第三章 調整與編表.
媽,我們真的不一樣 青少年期與中年期 老師: 趙品淳老師 組員: 胡珮玟4A1I0006 馬菀謙4A1I0040
特殊族群運動健康訓練(I).
依据教材 全国高等教育自学考试指定教材 《西方行政学说史》, 竺乾威主编,高等教育出版社。
一、平面点集 定义: x、y ---自变量,u ---因变量. 点集 E ---定义域, --- 值域.
校园信息管理系统 河北科技大学网络中心 2000/4/10.
正 信 讀 書 會 主 持 群 : 姚 永 錩 、 鄭 健 、 陳 淑 珍 佛法的生活應用 2008/07/23.
非法集资典型案例评析 南京师范大学法学院 蔡道通 2016年1月.
专题(二) 交往沟通 掌握技能 命 题 解 读 背 景 材 料 新 题 演 练 考 点 链 接 1.
松竹梅岁寒三友 步入建交 桃李杏村暖一家 迈进职教 活出精彩.
腦筋要變通,舉一反三的創意; 和其他東西結合,馬上就有創意; 動詞用一下,就可以變花樣; 其實,創意超簡單,有用心就有創意。
班級:二幼三甲 姓名:郭小瑄 、 詹淑評 學號:1A2I0029 、1A2I0025
第八单元第二课第一课时 严守法律 温州四中 蒋莉青.
指導老師:楊淑娥 組別:第一組 成員:劉怡萱4a0i0066 吳珮瑜4a0i0070 林秋如4a0i0075 陳婉婷4a0i0076
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
管理学基本知识.
第十一章 真理与价值 主讲人:阎华荣.
指導老師:陳韻如 姓名:吳宜珊 學號:4A0I0911 班級:幼保二乙
高级财务会计.
默写基础知识: 1、家庭是由 关系、 关系或 关系而结合成的亲属生活组织。家里有 ,家中有 。
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
滁州学院首届微课程教学设计竞赛 课程名称:高等数学 主讲人:胡贝贝 数学与金融学院.
授课教师简历 刘付才,男,中学高级教师,亳州一中南校体 育教研组长,全国体育优质课一等奖获得者,华佗 五禽戏第五十八代传承人;长期从事五禽戏教学和 研究工作,参与创编了国家级课题“校园五禽戏”; 2014年全国学生运动会展示中获得优秀表演奖; 2015年指导的五禽戏传人进行的五禽戏教学获得全 国一等奖,编著的《华佗五禽戏之简易健身操》即.
什么是颈椎病? 颈椎病是指颈椎间盘退行性变,及其继发性椎间关节退行性变所致脊髓、神经、血管损害而表现的相应症状和体征。
洪涝灾害重点传染病的预防 江苏省疾病预防控制中心 汪华.
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
第七章 固 定 资 产.
小 桔 灯 市场赢利能力与战略 主讲:杨贤耀.
傳統童玩遊戲創新 組別:第八組 班級:幼保二甲 組員: 4A0I0005柯舒涵 4A0I0011謝孟真
第一单元 中国传统文化主流思想的演变.
公務人員退休法、撫卹法 法制與實務講習 銓敘部退撫司 中華民國99年8月.
《傅雷家书》 学 科:语文 年 级:九年级 授课教师:王宁宁.
践行新时期广东精神 推进广东公路文化繁荣与发展 ——关于广东省公路文化建设与实践的思考
拾貳、 教育行政 一、教育行政的意義 教育行政,可視為國家對教育事務的管理 ,以增進教育效果。 教育行政,乃是一利用有限資源在教育參
第一節 行政裁量與不確定法律概念 第二節 行政裁量
92-90數學課程綱要比較 -- 不含數與計算 台北市立師範學院 數學資訊教育系副教授 李源順.
課程銜接 九年一貫暫行綱要( )  九年一貫課程綱要( ) 國立台南大學數學教育系 謝 堅.
2.3 变量间的相关关系 变量之间的相关关系 两个变量的线性相关 第二课时.
2.4 二元一次方程组的应用(1).
運輸與空間的交互作用 運輸發展的階段 一、分散的港口 二、侵入路線 三、發展支線 四、初步相互連結 五、完全相互連結 六、高度優越的幹線
本课设置5个环节 一、限时秒杀--5分钟 二、摩拳擦掌--9分钟 三、刀锋相见--20分钟 四、现炒现卖--5分钟 五、相约课后--1分钟.
从中国与联合国的关系演进 看联合国的产生与发展
马克思主义基本原理概论 第三章 人类社会及其发展规律.
行政院國軍退除役官兵輔導委員會 嘉義榮民醫院.
光的折射.
作者:汤雪华 博客: DDD & ENODE 作者:汤雪华 博客:
碳汇资本在旅游融资中的应用研究 阚如良 梅雪 孔婷 经济与管理学院旅游管理系
最大熵模型简介 A Simple Introduction to the Maximum Entropy Models
公立學校教職員退休資遣撫卹條例重點說明 苗栗縣政府人事處編製 主講人:陳處長坤榮 107年5月2日.
微信商城系统操作说明 色卡会智能门店.
國民年金 np97006.
業務員 傷害險通報作業 新光人壽內網-產險傷害險通報P2~P4 【個人】傷害險通報作業P5~P10 【團體】傷害險通報作業P11~P16
加減法文字題 國小低年級學生對加減法文字題的瞭解 小組成員 陳育娟 羅珠綾 侯宜孜
飛行器製作與飛行 講師:劉修建.
因果性:一个形而上学的预设 赵敦华 2008年5月.
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
第八章 异步电动机.
第四章 買賣業會計.
用加減消去法解一元二次聯立方程式 台北縣立中山國中 第二團隊.
Presentation transcript:

分类 IRLAB

大纲 自然语言中的重要技术 决策树 最大熵模型 K近邻

自然语言中的分类问题

分类的一般过程 训练集 数学模型 训练过程 测试集 评价 精确率,宏平均,微平均

本课介绍的几种方法 决策树 最大熵模型 K近邻

决策树 简介 决策树表示法 决策树学习的适用问题 基本的决策树学习算法 决策树学习中的假想空间搜索 决策树学习的常见问题

简介 决策树方法的起源是概念学习系统CLS,然后发展到ID3方法而为高潮,最后又演化为能处理连续属性的C4.5。有名的决策树方法还有CART和Assistant。 是应用最广的归纳推理算法之一 一种逼近离散值目标函数的方法 对噪声数据有很好的健壮性且能学习析取表达式

决策树的表示法 决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值

表达式

决策树学习的适用问题 实例是由属性-值对表示的 目标函数具有离散的输出值 可能需要析取的描述 训练数据可以包含错误 训练数据可以包含缺少属性值的实例

属性选择 构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子,可以有很多决策树能符合这组例子。人们研究出,一般情况下或具有较大概率地说,树越小则树的预测能力越强。要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。由于构造最小的树是NP-难问题,因此只能采取用启发式策略选择好的逻辑判断或属性。

用熵度量样例的均一性(纯度) 熵的定义 举例

用信息增益度量期望熵最低

举例

ID3算法 创建树的Root结点 如果Examples都为正,那么返回label=+中的单结点Root 如果Examples都为反,那么返回lable=-单结点树Root 如果Attributes为空,那么返回单节点树Root,lable=Examples中最普遍的目标属性值 否则开始 AAttributes中分类能力最好的属性 Root的决策属性A 对于每个可能值 在Root下加一个新的分支对应测试A=vi 令Example-vi为Examples中满足A属性值为vi的子集 如果Examples-vi为空 在这个新分支下加一个叶子结点,节点的lable=Examples中最普遍的 目标属性值 否则在这个新分支下加一个子树ID3(example-vi,target- attribute,attributes-|A| 结束 返回 Root

C4.5 C4.5是对ID3的改进算法 对连续值的处理 对未知特征值的处理 对决策树进行剪枝 规则的派生

决策树学习中的假设空间搜索 假设空间 ID3算法中的假设空间包含所有的决策树 当遍历决策树空间时,ID3仅维护单一的当前假设。

决策树学习的常见问题(1) 避免过度拟合数据 基本的决策树构造算法没有考虑噪声,生成的决策树完全与训练例子拟合。有噪声情况下,完全拟合将导致过分拟合(overfitting),即对训练数据的完全拟合反而不具有很好的预测性能。

解决方法 剪枝是一种克服噪声的技术,同时它也能使树得到简化而变得更容易理解。 向前剪枝(forward pruning) 向后剪枝(backward pruning) 理论上讲,向后剪枝好于向前剪枝,但计算复杂度大。剪枝过程中一般要涉及一些统计参数或阈值,如停机阈值;有人提出了一种和统计参数无关的基于最小描述长(MDL)的有效剪枝法

决策树学习的常见问题(2) 合并连续值属性 属性选择的其他度量标准 信息增益比(gain ratio)、Gini-index、距离度量(distance measure)等。不同的度量有不同的效果,特别是对于多值属性。

决策树学习的常见问题(3) 处理缺少属性值的训练样例 处理不同代价的属性

决策树的优点 可以生成可以理解的规则; 计算量相对来说不是很大; 可以处理连续和离散字段; 决策树可以清晰的显示哪些字段比较重要

不足之处 对连续性的字段比较难预测 当类别太多时,错误可能会增加的比较快 一般的算法分类的时候,只是根据一个属性来分类。 不是全局最优。

举例:利用决策树进行文本分类

最大熵模型 熵定量的描述事物的不确定性 设随机变量 ,它有A1,A2,…,An共n个可能的结局,每个结局出现的机率分别为p1,p2 ,...,pn,则 的不确定程度,即信息熵为: 熵越大,越不确定 熵等于0,变量是确定的

最大熵思想 最大熵思想由来已久,Occam在他著名的Occam剃刀理论中即体现了这种思想,对最大熵理论的系统论述出现在上世纪50年代中期,由E.T. Jaynes提出,其原理的基本思想是:我们从全部相容的分布预测中挑选这样的预测,它是在某些约束条件下(通常是给定的某些随机变量的分布)使信息熵达到极大值。这是因为信息熵取得极大值时对应的一组概率分布出现的概率占绝对优势。

在自然语言中的应用 S.Pietra、V.Pietra等人提出了一种基于最大熵原理的单词聚类方法,首次将最大熵理论应用于自然语言处理。 A.L.Berger、S.Pietra、V.Pietra等人比较详细地介绍了最大熵的理论框架,并介绍了其在基于统计的机器翻译领域的一些应用。 S.Abney在统计属性--值文法(Attribute-value Grammars)中使用最大熵进行参数估计。 李涓子、黄昌宁改进了最大熵的特征选择策略,并将其应用于汉语的词义消歧,取得了较好的效果 A.Borthwick研究了基于最大熵的名实体(Named Entity)的识别

最大熵模型 已知训练样本集(x1,y1),(x2,y2),…,(xN,yN),其中x为输入,y为输出 指x出现的情况下,y的经验概率,也就是y在样本集中的概率。 指x出现的情况下,y的实际概率。 随机事件的不确定性可以用条件熵来衡量: 特征指x与y之间存在的某种特定关系,可以用一个输出为0或1的特征函数表示。

最大熵模型 特征的经验概率为所有满足特征要求的(x,y)的验概率之和,即: 特征的期望概率,也就是特征在我们所学习的随机事件中的真实分布为:

最大熵模型 选定的特征的重要性可通过下式体现: 上 式表示,特征f的经验概率与期望概率一致,当样本足够多时,可信度高的特征的经验概率与期望概率是一致的

约束集 根据随机事件的情况,约束等式可以有多组,约束等式的集合叫约束集,可表示为

最大熵模型 最大熵模型,是满足约束集条件的所有模型中熵最大的模型,即: 其中p为满足约束集C条件的某一统计模型。 因为约束集中的每一个特征的分布是最大似然估计,所以约束集中元素越多,统计模型从训练样本中学得的越多,其做出的预测也越依赖于样本集。选择特征较多时,满足约束集要求的统计模型个数较少,当把样本中的所有(x,y)都作为特征时,模型唯一,为用极大似然估计求p(y|x)所建立的模型。

最大熵模型求解 最大熵模型求解问题,实质是一个约束条件下求极值的问题。此类问题通常用拉格朗日乘子法确定。 其中:

求导后变换得 其中 最大值可通过求

没有解析解,Danroch 和Rateliff于1972年提出了一个称为GIS(Generalized Iterative Scaling Algorithm)算法[133]。D.Pietra等改进了原有的最大熵模型求解算法,降低了求解算法的约束条件,提出了IIS(Improved Iterative Scaling Algorithm)算法,增加了算法的适用性,IIS算法是目前最大熵参数求解中的常用算法。

IIS算法 IIS算法如下: 输入:约束集, x,y的经验概率分布 输出: 1、 初始令, 2、 for i=1 to n 循环 1、            初始令, 2、            for i=1 to n 循环 a)        令 为下面方程的解 其中, 由(3-3)对f的定义可知在本文中为某一实例(x,y)包含的特征数量。 b)        c)        重复 a)至 收敛 3、            算法结束

这里求解使用牛顿迭代法

迭代算法 1 初始令 i=0, ai=0 2 3   当 , i++, 循环至2, 4   算法结束, 为方程解, = 。

最大熵统计模型的优点 最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型。 其次最大熵统计模型可以灵活地设置约束条件。通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度。 另外最大熵模型还自然地解决了统计模型中参数平滑的问题。

K近邻(KNN) 最近邻分类规则 最近邻规则的一个推广- KNN 没有好的相似度矩阵不能用 KNN 对于测试样本点x,在集合中距离它最近的的x1。最近邻分类就是把x分为x1 所属的类别 最近邻规则的一个推广- KNN 没有好的相似度矩阵不能用 KNN

方法 目标:基于训练集N的对y分类 确定在N中与y最相似的元素x 得到k个最相似的集合 设n1,n2分别为集合中属于c1,c2的个数 如果p(c1|y)>p(c2|y),判为c1,否则判为c2

特点 其性能依赖于相似度矩阵 效率问题

Thanks!