Presentation is loading. Please wait.

Presentation is loading. Please wait.

基于贝叶斯模型的多标签分类算法研究  张洛阳、毛嘉莉、刘斌、吴涛  西华师范大学. 大纲 引言 国内外研究现状 BR 和 CC 算法分析 基于贝叶斯模型的多标签 分类算法 算法仿真实验及结果分析 结论 基于贝叶斯模型的多标签分类算法研究.

Similar presentations


Presentation on theme: "基于贝叶斯模型的多标签分类算法研究  张洛阳、毛嘉莉、刘斌、吴涛  西华师范大学. 大纲 引言 国内外研究现状 BR 和 CC 算法分析 基于贝叶斯模型的多标签 分类算法 算法仿真实验及结果分析 结论 基于贝叶斯模型的多标签分类算法研究."— Presentation transcript:

1 基于贝叶斯模型的多标签分类算法研究  张洛阳、毛嘉莉、刘斌、吴涛  西华师范大学

2 大纲 引言 国内外研究现状 BR 和 CC 算法分析 基于贝叶斯模型的多标签 分类算法 算法仿真实验及结果分析 结论 基于贝叶斯模型的多标签分类算法研究

3 多标签分类 允许实例拥有多个类别 ( 或称为标签 ) 多标签分类的应用场景 例如,在互联网营销中,通过搜索、 浏览、点击、购买等行为为每一个用 户建立多个特征标签,有利于电商进 行合理的个性化推荐。

4 大纲 引言 国内外研究现状 BR 和 CC 算法分析 基于贝叶斯模型的多标签 分类算法 算法仿真实验及结果分析 总结 基于贝叶斯模型的多标签分类算法研究

5 问题转换 二元关联 (Binary Relevance, BR): 忽略标签之间相互关系 标签幂集法 (Label Power-set, LP): 偏置性 剪枝幂集 (Pruned Problem Transformation, PPT) 随机标签 (Random k-label-sets, RAkEL) 算法转换 多标签 k 近邻法 (Multi-label KNN, MLKNN) 多标签后向传播网络 (Back-Propagation MLL, BPMLL) 排序支持向量机 (Rank Support Vector Machine, R-SVM) 随机游走模型 (Multi-label Random Walk, MLRW) 算法模型 链型分类 (Classifier Chain, CC) :性能受特征属性维数约束 组合链型分类 (Ensembles of Classifier Chains, ECC) 概率链型分类 (Probabilistic Classifier Chain, PCC) 贝叶斯链型分类 (Bayesian Chain Classifier, BCC)

6 大纲 引言 国内外研究现状 BR 和 CC 算法的不足 基于贝叶斯模型的多标签 分类算法 算法仿真实验及结果分析 总结 基于贝叶斯模型的多标签分类算法研究

7 多标签分类的数学描述:根据实例的属性 ( 特征属性或标签 属性 ) ,在 2 |L| 种标签组合中选取概率最大的作为该实例的 标签。 (1) BR 算法由 |L| 个二类分类器组成,并且假设标签相互独立 (2) 显然式 (1) 和式 (2) 在绝大多数情况下不相等。

8 基于贝叶斯模型的多标签分类算法研究 CC 算法把已分类标签当作未分类标签的特征属性,分类器 训练阶段会考虑标签之间相关性,因此有下式成立: (3) 当实例的特征属性维数过大时,新增的特征属性不能影响 分类器的输出结果,因此该算法的性能没有得到提升。 (4) 针对 BR 和 CC 的不足,提出贝叶斯模 型多标签分类算法。标签的取值由属 性置信度和标签置信度共同决定。

9 大纲 引言 国内外研究现状 BR 和 CC 算法的不足 基于贝叶斯模型的多标签 分类算法 算法仿真实验及结果分析 总结 基于贝叶斯模型的多标签分类算法研究

10 属性置信度 : 由分类器根据实例的特征属性计算得到,记作 conf a (l) ,并且满足 : (5) K 近邻 (K Nearest Neighbor) 输出的结果满足 (5) 式,可以直接 作为属性置信度。 标签置信度:指在已知前 i-1 个标签取值的前提下第 i 个标签取 值的先验概率 (KNN 仅考虑 K 个最近邻 ) ,记作 conf b (l) 。 (6) Rank(L)={rank[1],…,rank[n]} 表示实例的标签根据分类器输 出的 conf a (l) 进行降序排列的序列,其中 rank[i] 存放的是排 序前标签所处的位置。

11 基于贝叶斯模型的多标签分类算法研究 1. 多标签贝叶斯模型 (Multi-label Classification Algorithm Based on Bayesian Models,MLBN) 属性置信度最大 ( 排列在开始位置 ) 的标签,取值为 1 ,即: (7) 排列在第 i 位置的标签由下式决定: (8) 当 |L| 很大时,计算标签置信度较为复杂,并且 MLBM 在计算标签置 信度时,必须考虑所有已分类的标签,因此一些本没有关系或关 系较弱的标签会影响分类器的性能。 2. 马尔科夫型多标签模型 (Markov Multi-label Classification Algorithm Based on Bayesian Models, MMLBM) 使用马尔科夫模型化简标签置信度的计算,仅考虑前一个已分类标签 对当前标签的影响,因此可以消减关系较弱标签的影响,并且有 效提高算法的时间效率。

12 基于贝叶斯模型的多标签分类算法研究 MLBM 伪代 码 MMLBM 标签置信度的计算方法如下 : 第一步:计算属性置信度 第二步:计算标签置信度 第三步:判断标签取值

13 大纲 引言 国内外研究现状 BR 和 CC 算法的不足 基于贝叶斯模型的多标签 分类算法 算法仿真实验及结果分析 总结 基于贝叶斯模型的多标签分类算法研究

14 实验数据集 emotions 、 flags 、 scene 评价指标 汉明损失、差一错误、精确度、准确度

15 MLBM 和 MMLBM 的对比实验 MLBM+KNN 和 MMLBM+KNN emotions, scene, flags 数据集实验结果 emotions 数据集上, MMLBM 的综合性能略优于 MLBM ; flags 数据集上, MLBM 和 MMLBM 的性能差异较大,因为 该数据集标签之间的关系更为密切 (flags 总共 7 个标签,实 例平均标签数目是 3.392) ; scene 数据集上, MLBM 和 MMLBM 的四条曲线近似重叠,因为该数据集的标签关系 较弱 ( 实例的平均标签数目是 1.074) 。

16 MMLBM 与 LP 、 BR 、 CC 等算法的对比实验 MMLBM+KNN 和其它 7 种算法在 emotions, scene 和 flags 数据集上实验结果 emotions 和 flags 数据集上,考虑标签关系的 MMLBM 算法的性能 优于其它分类算法 ;scene 数据集上,考虑标签相互关系的算法 CC 和 MMLBM 其性能弱于其它分类算法。

17 基于贝叶斯模型的多标签分类算法研究 结论 当数据集中实例的标签基数 ( 平均标签数目 ) 较大 时, MLBM 和 MMLBM 的综合性能优于 BR 和 CC 等分类算法。 结束!!谢谢


Download ppt "基于贝叶斯模型的多标签分类算法研究  张洛阳、毛嘉莉、刘斌、吴涛  西华师范大学. 大纲 引言 国内外研究现状 BR 和 CC 算法分析 基于贝叶斯模型的多标签 分类算法 算法仿真实验及结果分析 结论 基于贝叶斯模型的多标签分类算法研究."

Similar presentations


Ads by Google