关于一些本体评价方法测评指标的综述 姜成樾
关于本体评价(Evaluation) 本体评价关键点 相关方法工具的评价 待评测数据集 测试例子 匹配的方法或工具 实验结果及分析(*) 结果数据的量化分析(*) 其他一些数据指标的评价分析(运行时间等)
测评指标——P & R,F 最广泛应用的测评方法 简介 精度(Precision) 召回率(Recall) 综合评价指标(F-Measure) 简介 精度、召回率及综合评价指标,是广泛应用于信息检索和统计学分类领域的度量方法,在本体匹配映射评估中也多采用此法进行相关测评
测评指标——P & R,F 精度和召回率(Precision & Recall) 精度,查准率 召回率,查全率 P = A / (A + B) R = A / (A + C) 评价:最具有说明能力(但是对于全面衡量方法工具性能有所不足) 相关 不相关 识别 A B 未识别 C D
测评指标——P & R,F 综合评价指标(F-Measure) 精度P、召回率R指标之间的矛盾,使得两者不能同时取得最优 F-Measure综合考虑P、R指标,为P、R的加权调和平均 F = (α^2 + 1) PR / (P + R)α^2,α为参数 当α=1时,F即为最常见的F1,即 F1 = 2PR / (P + R) 评价:F1综合了P、R的结果,F1值较高则说明实验方法较好,是一种单一的定量指标
测评指标——P-R Curves P-R曲线(Precision-Recall Curves) 精度-召回率曲线(或称查准率-查全率曲线),是一种基于精度、召回率计算的指标 多用于分类、检索领域,可通过调整实际任务中不同的阈值参数,计算出不同阈值下的(P, R)值对,作出一条P-R曲线,横坐标为R,纵坐标为P(即在不同召回率情形下计算出相应的精度值) 实验过程中,观察P-R曲线,越靠近坐标(1, 1) (曲线为上凸),说明方法工具越好。也可用AUC衡量之 评价:P-R Curve是一种更加细粒度的图示说明
测评指标——Precision @ N Curves 一种基于有监督本体匹配的评价指标 规定:给定一个定序的候选配准C,有|C|个对应关系。在固定时间t中,专家能够识别C中前n个对应关系,一个表示为Cn的子集。当n为未知,若Cn对每个相应的n包含了最大数目的正确匹配对,则匹配方法最优 定义:对于给定的C和n,Precision@N (Prn) 是Cn的精度, 1 ≤ n ≤ |C| 若在排序n处,检索到的内容与主题无关,Prn = 0; 若在排序n处,检索到的内容与主题有关, Prn = 前n个相关数目 / n 可比性问题:此法必须对所有匹配方法对所有n值都有定义,所有候选配准都必须进行相应的填充(占位符,形成了人工占位符配准序列P,包含0置信度的不正确的对应)
测评指标——Precision @ N Curves 定义一个参照配准R,其P@N曲线最优(R包含了所有本体间能够被识别的正确的对应,为黄金标准) 评价方法:计算曲线 下方覆盖面积(Area Under Curve,AUC), 值越大,方法越优
测评指标——AP 平均精度(Average Precision) 简写AP,一种用于评价排序算法的信息检索测度 L:系统生成的一个已排序列表(即前述的C,不包含填充) P(i):处于排序i的L的精度(即前述的Prn) corr(i):若处于排序i的实例为相关的正确匹配,则值为1;否则为0 对一个有序的列表,计算AP的时候要先求出每个位置上的precision,然后对所有的位置的precision再做average 对排序位置敏感,相关检索排序的位置越靠前,检出的相关文档越多,AP值越大。
测评指标——MAP 平均精度均值(Mean Average Precision) 对于同一种方法工具对不同数据集产生的数据结果所计算得到的平均精度(Average Precision,AP),再次求其算术平均,以得到对这种方法工具对不同数据集的平均性能(精度方面) MAP用于解决P,R,F-Measure的单点值局限性,能够反映全局性能
测评指标——MAE 绝对平均误差(Mean Absolute Error) 衡量预测结果与实际值有多接近,是所有预测结果与实际值之间相差的平均(数值越小越好) fi:预测值;yi:实际结果 规定:0置信度表示不正确的对应,1置信度表示正确的对应 conf(c):一个对应关系c的置信度取值
测评指标——Stability & Credibility 稳定性:在选取方法工具时,用于无参考匹配情况下,对参与相关应用领域匹配的方法的质量评估。高稳定性表示了匹配方法在不同领域和规模的数据上能够持续一贯地执行 可靠性:希望方法产生的结果中,true positive排序高,false positive排序低
测评指标——Stability & Credibility 稳定性评估:标准偏差STD(Standard Deviation) 对经典F-Measure进行推广,到一个更加广泛的版本 可靠性评估:接收器算子特性曲线ROC(Receiver Operator Characteristic Curves)Curves ROC-AUC(Area Under Curve)
测评指标——Stability & Credibility 广义F-Measure 定义一个置信阈值confidence threshold(CT),通过与参照匹配基于训练集进行调整并应用于测试集,期望测试集特征分布与训练集相似 贪心策略选取CT,使F-Measure最大 maxF-Measure:匹配方法的理论最优匹配质量(不考虑实际匹配过程中的各种语义信息因素) 由于实际情况,大规模真实数据集导致此法开销过大,对于参考匹配不足的数据集又不可行,再次引入maxFCT
测评指标——Stability & Credibility 验证数据集稀缺,引入uniF-measure uniF-Measure:uniform F-Measure,模拟实际应用时评估方法的稳定性 评估:一个test unit (数据集中一个有限的部分)中的maxFCTs值的稳定性显示了匹配方法的稳定性 综合评估:取maxF-Measure和uniF-Measure算术平均
测评指标——Stability & Credibility STD评分 maxCT过于严格,稍微放宽要求,对于同一数据集,一些CT值及相应的F-Measure都是可取的 N:一个test unit中匹配任务的数目 :relaxedCTs的平均值 STD评分是一个衡量relaxedCTs方差的标准偏差(maxCT也可依照此法),变量relaxedCT的细微变化将导致STD的显著变化,STD在相同test unit下可比
测评指标——Stability & Credibility 接收器算子特性曲线(Receiver Operator Characteristic Curves,ROC Curves) 用于机器学习领域评价二元分类 显示正确对应的数目如何随不正确对应数目变化,这一指标表达了分类器从不正确对应中区分正确对应的能力,可用于测匹配器是否有能力将可区分置信取值归类 X轴为true positive比率,Y轴为false positive比率 若所有正确对应的排序皆高于不正确对应,则ROC曲线最优 比较方法:AUC(ROC),1为最优配准 P-R曲线、ROC曲线密切相关,有相似的特性,但并不等价,false positive对P-R影响比ROC更多
参考文献(References) [1] Ferrara, Alfio, et al. "Evaluation of instance matching tools: The experience of OAEI." Web Semantics: Science, Services and Agents on the World Wide Web 21 (2013): 49-60. [2] Pennacchiotti, Marco, and Patrick Pantel. "Automatically building training examples for entity extraction." Proceedings of the Fifteenth Conference on Computational Natural Language Learning. Association for Computational Linguistics, 2011. [3] Ritze, Dominique, Heiko Paulheim, and Kai Eckert. "Evaluation Measures for Ontology Matchers in Supervised Matching Scenarios." The Semantic Web–ISWC 2013. Springer Berlin Heidelberg, 2013. 392-407. [4] Niu, Xing, et al. "Evaluating the stability and credibility of ontology matching methods." The Semantic Web: Research and Applications. Springer Berlin Heidelberg, 2011. 275-289.
THANKS!