关于一些本体评价方法测评指标的综述 姜成樾.

Slides:



Advertisements
Similar presentations
第二十九章 医学原虫 一、教学目的 熟悉:溶组织内阿米巴、阴道毛滴虫的生活史、致病 性、实验诊断与防治原则;间日疟原虫的生活史。 应用:疟疾的发作、复发、再燃及凶险型疟疾的发生 机制和临床表现;疟原虫的实验诊断与防治原则。 了解 : 溶组织内阿米巴、阴道毛滴虫、间日疟原虫的 红內期形态。 二、教学方法.
Advertisements

群体性心因性反应 英德市疾病预防控制中心 孙蕊蕊 2010 年 11 月. 一、何谓群体性心因性反应  群体性心因性反应:又称群发性癔症,是一 种精神或心理因素引起的的一种在临床上只 有精神或神经系统症状为主,而没有任何可 以检出的器质性病变。意识不丧失,易受心 理暗示影响,使病情加重或减轻。
報告者:曹仁傑 2016/8/291.  簡介  研究方法  遊戲設計  實驗結果與分析  結論 2016/8/292.
第四节 关 格 第四节 关 格 医科大学附属中医医院外科教研室 高昌杰 病 名 关格首载于《内经》,或指脉象或言 病机。《伤寒论》将小便不通和吐逆 为主症者称为关格。巢元方等则以大 小便俱不通为关格。至南宋时期,张 锐综合仲景与巢氏之说,提出关格病 上有吐逆,下有大小便不通。近代对 本病的认识逐渐统一于仲景,故本书.
大中衔接 培育英才 人大附中开设大学先修课程简介 2014 年 12 月. 人大附中的课程理念  要创造适合每个学生发展的教育。通过创设丰富的、 可供选择的课程,充分满足学生个性化、多样化发展 的需求,为每个学生搭建起放飞人生梦想的舞台。
医科大学附属中医医院内科教研室. 一、腰痛定义 二、腰痛历史沿革 三、腰痛病因病机 四、腰痛范围 五、腰痛诊断 六、辨证要点 七、治疗原则 八、分型论治 九、其他疗法 十、复习思考题 十一、临床病案.
肺癌. 概述 w 定义  肺癌或称支气管肺癌,是由于正气内虚, 邪毒外侵,痰浊内聚,气滞血瘀, 阻结于 肺,肺失肃降所致,以咳嗽、咯血、胸 痛发热、气急为主要临床表现的肺部恶 性肿瘤。
医疗事故处理法律制度 ——概 述 张华.
帶你走進 北京 航空航天大學. 帶你走進 北京 航空航天大學 學校簡介 北京航空航天大學,簡稱“北航”,成立於1952年,由當時的清華大學、北洋大學、廈門大學、四川大學等八所院校的航空系合併組建,是新中國第一所航空航太高等學府,現隸屬於工業和信息化部。
泌尿外科疾病病人的护理 泸医附院外科 杨昌美.
國立嘉義大學 資訊工程研究所 指導教授:柯建全 博士 研究生:林俊志
新編多元性向測驗 測驗說明 輔導室
针灸治疗学讲稿 山东中医药大学 高树中.
举国上下抗击风雪灾害专刊 温暖行动 灾情告急年关近 万众一心齐抗灾 可歌可泣留千古 温暖行动遍人间 导读提示 阳关雨露出版社
医疗纠纷的 防范和处理 医务部 林星方.
作文选刊 作文之窗
分類:基本概念、決策樹與模型評估.
在《命运交响曲》 音乐声中 安静我们的心 迎接挑战.
快乐假期 2010年第6期 总第54期 贝尔芬 主编 暑期作文专刊 《快乐假期》杂志社 出版.
101年國中畢業生多元進路宣導 國中部註冊組 100年10月29日.
高中職優質化專題 教育研究博士班二年級 游宗輝.
海星國中部直升方案說明 報告人:教務處 陳博文主任
高中第二群組 1.北一女 中~ 2.中山女中~ 3.政大附中~.
101年度十二年國民基本教育 國民中學校長專業研習 校長落實補救教學、適性輔導 中輟生的預防與復學輔導之實務作為
教 学 评 价.
第七章 筛检 Screening.
歡迎各位老師 蒞校參訪 召集人、各位委員、同仁大家好,我是林淑玟,負責教務行政進行簡報 報告人:林淑玟 中華民國九十九年三月二十三日.
大學甄選入學 選填志願輔導說明會 曾文農工輔導室.
老师:如何撰写教研文章? 主讲:石修银 谨以此赠与孜孜追求的老师 谨以此赠与改变人生的老师.
一所具有悠久歷史與優良傳統的 優質學校 強調生活教育與精緻教學 是您有心向學的最佳選擇.
依“标”据“本”,命制考题 发表于《数学教学》2006年第9期 (华东师大核心“CN”刊物)
國立嘉義高級工業職業學校 101年度綜合高中宣導研習 國立嘉義高工 教務主任 林章明
2016中重卡网络规划 中重卡营销部 2016年6月.
12星座 对于星座,你又知道多少呢? 第一刊.
校園性侵害與性騷擾 防治及危機處理 江承曉.
《临床实验室管理学》课件 第十七章 诊断试验的临床效能评价.
海軍軍官學校 士官二專班 招生簡報 、 第1頁,共30頁.
海軍軍官學校 士官二專班 103學年度 招生簡報.
数学通报简介 ——如何写稿及投稿 数学通报 郑亚利 2014年8月.
第21章 信息检索 概述 利用项进行相关性排名 利用超链接的相关性 同义词, 多义词, 本体 文档的索引 检索有效性度量 Web抓取和索引
中 医 内 科 学 第三章 第 六节 腹痛.
推进《玻璃钢制品工》 国家职业资格证书制度的建设
本期导读: 1版 习 惯 2版 的 十个做人的好习惯 3版 力 4版 量 5版 6版 7版 8版
中学生心理健康讲座 打开心灵之门 开启阳光之路 主讲人:范荃.
中 医 内 科 学 第二章 第五节 眩晕.
马克思主义基本原理概论 第三章 人类社会及其发展规律.
中 医 内 科 学 第三章 第三节 呕吐.
教育部宣導專員 國立臺中家商 許敏政主任 101年2月23日製作 #201~203
100學年度土木工程系專題研究成果展 題目: 指導老師:3223 專題學生:2132、2313 前言: 成果: 圖1 圖2 方法與流程:
分析化学教程 第二章 分析数据处理及 分析测试的质量保证 (1) 分析化学教程( 学年)
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
显著物体分割 探秘与思考 Yin Li, Georgia Tech
DATASET 查询概念树 相关调研 2018/12/6 刘庆霞 Websoft NJU.
知识检索与推理在求解选择型问题中的应用 学生:丁文韬 指导教师:瞿裕忠.
基于语义网的军事问答系统的设计与实现 报告人:汤顺雷 指导老师:程龚.
碳汇资本在旅游融资中的应用研究 阚如良 梅雪 孔婷 经济与管理学院旅游管理系
受欢迎的课堂具有什么特征 课堂观察研究 问卷调查研究
基于MapReduce的大规模本体匹配方法研究
十二年國民基本教育 103學年度高中高職及五專 入學方式與就學區規劃 (草案諮詢稿)
现代教育技术应用 第一章 现代教育技术基础 第6讲 何克抗教授关于多媒体课件的理论研究 单 位: 北京师范大学 作 者: 毛荷&王翠霞.
高中職多元進路 家長說明會 主講人: 東莞台商子弟學校 麥馨月 日 期:
抽樣與檢驗 章前導讀 壹、檢驗的意義 貳、抽樣的意義 參、允收抽樣 肆、作業特性曲線.
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
钱炘祺 一种面向实体浏览中属性融合的人机交互的设计与实现 Designing Human-Computer Interaction of Property Consolidation for Entity Browsing 钱炘祺
國立嘉義高級工業職業學校 101年度雲嘉區綜合高中宣導研習 國立嘉義高工 綜高高中學務組長 呂明欣
99年基測暨直升、原藝班、 申請、甄選入學報名作業說明
臺灣北區102學年度高級中等學校 舞蹈班暨聯合甄選入學術科測驗 暨甄選入學說明會
台中市黎明國中105學年度 學生報考 一般智能暨學術性向資賦優異學生鑑定 報名流程說明
信用评分卡 第七组 团队 组长:范亚军 组员:张鹏伟、方俊雅、庞瑞、王漪慧 汇报人员:张鹏伟.
Presentation transcript:

关于一些本体评价方法测评指标的综述 姜成樾

关于本体评价(Evaluation) 本体评价关键点 相关方法工具的评价 待评测数据集 测试例子 匹配的方法或工具 实验结果及分析(*) 结果数据的量化分析(*) 其他一些数据指标的评价分析(运行时间等)

测评指标——P & R,F 最广泛应用的测评方法 简介 精度(Precision) 召回率(Recall) 综合评价指标(F-Measure) 简介 精度、召回率及综合评价指标,是广泛应用于信息检索和统计学分类领域的度量方法,在本体匹配映射评估中也多采用此法进行相关测评

测评指标——P & R,F 精度和召回率(Precision & Recall) 精度,查准率 召回率,查全率 P = A / (A + B) R = A / (A + C) 评价:最具有说明能力(但是对于全面衡量方法工具性能有所不足) 相关 不相关 识别 A B 未识别 C D

测评指标——P & R,F 综合评价指标(F-Measure) 精度P、召回率R指标之间的矛盾,使得两者不能同时取得最优 F-Measure综合考虑P、R指标,为P、R的加权调和平均 F = (α^2 + 1) PR / (P + R)α^2,α为参数 当α=1时,F即为最常见的F1,即 F1 = 2PR / (P + R) 评价:F1综合了P、R的结果,F1值较高则说明实验方法较好,是一种单一的定量指标

测评指标——P-R Curves P-R曲线(Precision-Recall Curves) 精度-召回率曲线(或称查准率-查全率曲线),是一种基于精度、召回率计算的指标 多用于分类、检索领域,可通过调整实际任务中不同的阈值参数,计算出不同阈值下的(P, R)值对,作出一条P-R曲线,横坐标为R,纵坐标为P(即在不同召回率情形下计算出相应的精度值) 实验过程中,观察P-R曲线,越靠近坐标(1, 1) (曲线为上凸),说明方法工具越好。也可用AUC衡量之 评价:P-R Curve是一种更加细粒度的图示说明

测评指标——Precision @ N Curves 一种基于有监督本体匹配的评价指标 规定:给定一个定序的候选配准C,有|C|个对应关系。在固定时间t中,专家能够识别C中前n个对应关系,一个表示为Cn的子集。当n为未知,若Cn对每个相应的n包含了最大数目的正确匹配对,则匹配方法最优 定义:对于给定的C和n,Precision@N (Prn) 是Cn的精度, 1 ≤ n ≤ |C| 若在排序n处,检索到的内容与主题无关,Prn = 0; 若在排序n处,检索到的内容与主题有关, Prn = 前n个相关数目 / n 可比性问题:此法必须对所有匹配方法对所有n值都有定义,所有候选配准都必须进行相应的填充(占位符,形成了人工占位符配准序列P,包含0置信度的不正确的对应)

测评指标——Precision @ N Curves 定义一个参照配准R,其P@N曲线最优(R包含了所有本体间能够被识别的正确的对应,为黄金标准) 评价方法:计算曲线 下方覆盖面积(Area Under Curve,AUC), 值越大,方法越优

测评指标——AP 平均精度(Average Precision) 简写AP,一种用于评价排序算法的信息检索测度 L:系统生成的一个已排序列表(即前述的C,不包含填充) P(i):处于排序i的L的精度(即前述的Prn) corr(i):若处于排序i的实例为相关的正确匹配,则值为1;否则为0 对一个有序的列表,计算AP的时候要先求出每个位置上的precision,然后对所有的位置的precision再做average 对排序位置敏感,相关检索排序的位置越靠前,检出的相关文档越多,AP值越大。

测评指标——MAP 平均精度均值(Mean Average Precision) 对于同一种方法工具对不同数据集产生的数据结果所计算得到的平均精度(Average Precision,AP),再次求其算术平均,以得到对这种方法工具对不同数据集的平均性能(精度方面) MAP用于解决P,R,F-Measure的单点值局限性,能够反映全局性能

测评指标——MAE 绝对平均误差(Mean Absolute Error) 衡量预测结果与实际值有多接近,是所有预测结果与实际值之间相差的平均(数值越小越好) fi:预测值;yi:实际结果 规定:0置信度表示不正确的对应,1置信度表示正确的对应 conf(c):一个对应关系c的置信度取值

测评指标——Stability & Credibility 稳定性:在选取方法工具时,用于无参考匹配情况下,对参与相关应用领域匹配的方法的质量评估。高稳定性表示了匹配方法在不同领域和规模的数据上能够持续一贯地执行 可靠性:希望方法产生的结果中,true positive排序高,false positive排序低

测评指标——Stability & Credibility 稳定性评估:标准偏差STD(Standard Deviation) 对经典F-Measure进行推广,到一个更加广泛的版本 可靠性评估:接收器算子特性曲线ROC(Receiver Operator Characteristic Curves)Curves ROC-AUC(Area Under Curve)

测评指标——Stability & Credibility 广义F-Measure 定义一个置信阈值confidence threshold(CT),通过与参照匹配基于训练集进行调整并应用于测试集,期望测试集特征分布与训练集相似 贪心策略选取CT,使F-Measure最大 maxF-Measure:匹配方法的理论最优匹配质量(不考虑实际匹配过程中的各种语义信息因素) 由于实际情况,大规模真实数据集导致此法开销过大,对于参考匹配不足的数据集又不可行,再次引入maxFCT

测评指标——Stability & Credibility 验证数据集稀缺,引入uniF-measure uniF-Measure:uniform F-Measure,模拟实际应用时评估方法的稳定性 评估:一个test unit (数据集中一个有限的部分)中的maxFCTs值的稳定性显示了匹配方法的稳定性 综合评估:取maxF-Measure和uniF-Measure算术平均

测评指标——Stability & Credibility STD评分 maxCT过于严格,稍微放宽要求,对于同一数据集,一些CT值及相应的F-Measure都是可取的 N:一个test unit中匹配任务的数目 :relaxedCTs的平均值 STD评分是一个衡量relaxedCTs方差的标准偏差(maxCT也可依照此法),变量relaxedCT的细微变化将导致STD的显著变化,STD在相同test unit下可比

测评指标——Stability & Credibility 接收器算子特性曲线(Receiver Operator Characteristic Curves,ROC Curves) 用于机器学习领域评价二元分类 显示正确对应的数目如何随不正确对应数目变化,这一指标表达了分类器从不正确对应中区分正确对应的能力,可用于测匹配器是否有能力将可区分置信取值归类 X轴为true positive比率,Y轴为false positive比率 若所有正确对应的排序皆高于不正确对应,则ROC曲线最优 比较方法:AUC(ROC),1为最优配准 P-R曲线、ROC曲线密切相关,有相似的特性,但并不等价,false positive对P-R影响比ROC更多

参考文献(References) [1] Ferrara, Alfio, et al. "Evaluation of instance matching tools: The experience of OAEI." Web Semantics: Science, Services and Agents on the World Wide Web 21 (2013): 49-60. [2] Pennacchiotti, Marco, and Patrick Pantel. "Automatically building training examples for entity extraction." Proceedings of the Fifteenth Conference on Computational Natural Language Learning. Association for Computational Linguistics, 2011. [3] Ritze, Dominique, Heiko Paulheim, and Kai Eckert. "Evaluation Measures for Ontology Matchers in Supervised Matching Scenarios." The Semantic Web–ISWC 2013. Springer Berlin Heidelberg, 2013. 392-407. [4] Niu, Xing, et al. "Evaluating the stability and credibility of ontology matching methods." The Semantic Web: Research and Applications. Springer Berlin Heidelberg, 2011. 275-289.

THANKS!