王有贵 北京师范大学管理学院系统科学系 2010年8月10日 上海理工大学 系统科学与复杂网络论坛 国家影响力和国民评价能力的相关网络分析 王有贵 北京师范大学管理学院系统科学系 2010年8月10日 上海理工大学 系统科学与复杂网络论坛
评价的主体和对象 图片:跳水,春哥与曾哥,美国偶像裁判与歌手,英国达人
评价的主体和对象 图片:跳水,春哥与曾哥,美国偶像裁判与歌手,英国达人
评价的主体和对象 体育比赛:裁判和运动员. 娱乐竞争:裁判和选手. 研究生保送:教师和学生 大学排名:评价机构和大学 企业排行榜:评级机构和企业 国家排行榜:评价结构 和国家 图片:跳水,春哥与曾哥,美国偶像裁判与歌手,英国达人
评价真的很重要 中考、高考和考研 大学排名与择校 职称评定规则和院士评选公关 有毒金融资产与金融危机 精英选拔与社会进步 个人选择、合作激励、组织效率、集体理性 图片:高考家长在考场外焦急等待;世界杯章鱼预测中国队取胜 新闻:院士竞争中的怪象、有毒资产如何导致金融危机;官员局长公开宣示
这样的评价结果你该相信么? 新闻图片:南京楼歪歪获奖、牛奶获奖 图表:不同的中国大学排名、不同的世界大学排名,
这样的评价结果你该相信么? 新闻图片:南京楼歪歪获奖、牛奶获奖 图表:不同的中国大学排名、不同的世界大学排名,
这样的评价结果你该相信么? 新闻图片:南京楼歪歪获奖、牛奶获奖 图表:不同的中国大学排名、不同的世界大学排名,
“以偏概全”是常态 被评价对象往往是复杂多样的,而人们能够看到的往往只是其中一个方面; 被评价对象的真实往往是被隐藏的,人们需要时间和识别能力才能接近真实; 认识评价对象有时是需要非常专门的知识的,没有经过特殊的训练和学习是不能做到的。
专业的评价者是必需的 恰当的个人选择和有效的组织管理依赖于正确的评价 个人知识、时间和能力的限制,使得我们在多数情况下都无法给出正确的评价 社会的精细分工和信息的爆炸性增长使我们自己在评价方面越来越无能为力,只有依靠专业性的评价者。
评价专家的“败德”行为 总统选举和超女海选; 专业教师、美食家、体育裁判 审稿和项目评审 贿选、黑哨和幕后交易 专家变“砖家”,教授成“叫兽” 评价者常常有可能在利益驱动下有意给出扭曲的评价结果。 人就是这么一些怪物,只要你放纵他,他就变坏;只要你依赖他,他就开始耍大牌。
引入评价系统 完全依赖自己去进行相关的评价是不能的; 单个人的评价总是片面的,但是每个人都可能给出“事实”的一个侧面; 专家的评价有可能是扭曲的; 我们需要建立有效的评价系统,它能够集中大量的片段的、有偏差的评价信息,发展先进的信息挖掘技术,给出背后完整的真实。 人就是这么一些怪物,只要你放纵他,他就变坏;只要你依赖他,他就开始耍大牌。
模型: 完备的评价体系 M个评价对象,每个都拥有一个内在的质量 N 个评价者, 每个都有一个先验给定的判断能力 每个评价者 i 都给目标 l 打出了自己的分数,因此,我们有一个完整的打分集合:
打分的组分 由评价者i 给目标 l 打出的分数基本由下面三个成分组成 其中 被评价对象的内在质量在评价者i上的投影; 是评价者在打分时表现出来的随机偏差,这个随机量的方差是 ,它 反映了评价者的判断能力大小
Interrater Reliability and Interrater Agreement IRR: Estimates of IRR are used to address whether judges rank order targets in a manner that is relatively consistent with other judges. IRA refers to the absolute consensus in scores furnished by multiple judges for one or more targets. Both IRR and IRA are perfectly reasonable approaches to estimating rater similarity.
Indices Used to IRA, IRR, and IRR+IRA
Measures of IRA: rWG indices This index defines agreement in terms of the proportional reduction in error variance where is the observed variance on the variable X (e.g., leader trust and support) taken over N different judges or raters and is the variance expected when there is a complete lack of agreement among the judges.
完善的评价体系 一个好的评价体系就是从统计上对评价结果进行有效的系统分析和集成,尽可能消除评价者打分中的有意倾斜和因判断能力有限所带来的误差,从而给出被评价对象的真实质量水平。 揭示评价对象的真实质量; 寻求胜任的评价者.
1、平均离差算法 目标l 得到的打分的简单平均分 目标l 得到的打分的加权平均分
1、平均离差算法 评价者i 的打分与平均值的偏差 评价者群体给出评价的可信性
2、迭代寻优算法 (3) (4) 目标l 得到的打分的加权平均 (1) 评价者I 的样本方差 (2) 评价者i的判断能力
2、迭代寻优算法 最初由于缺少额外信息,简单地 设置 用方程(1)估计 ql 用方程(2)估计Vi 用方程(4)计算各个打分的权重 重复步骤 II到步骤 IV
3 、相关网络度排序算法 对每一个评价者 i,从他的打分都可以给出对所有评价者的排序。 采用Spearman相关系数计算任意两个评价者之间的排序结果之间相似程度的大小 其中d为两个排序之间的距离
3、相关网络度排序算法 把每个评价者看作一个点,按照评价者之间的相似程度大小确定边的链接规则,构造一个评价者的关系网络。 给定一个相关系数的临界临界值Sk,凡是相关系数大于这个值的两个评价者之间连边,相关系数小于这个值的不连边。 按照度的大小对所有评价者进行排序,以此反映评价者的评价能力大小 。
3、相关网络度排序算法 利用评价者的连边数计算每个评价者给出评价的权重 计算最后真实的被评价对象l的打分结果
4、相关网络算法应用— 国家影响力评价 调查发起者: The BBC World Service Poll 起始时间:2005年 民意调查执行机构:GlobeScan;PIPA at the University of Maryland 调查内容: 国家影响力 调查形式:面对面、电话访谈 各国调查规模:访谈对象不少于1000人 访谈选项: mainly positive, mainly negative, depends, neither(neutral) and DK/NA.
Views of China’s Influence (2010)
Views of Country’s Influence (2010)
2010年参与评价国家
各年度被评价国家列表
2010年评价国家相关网络 (Sc=0.7)
2010年评价国家按度数排序
临界阈值对网络连边比例的影响
几个评价国家的评价能力的变动
致 谢 完成本工作的主要成员: 北师大系统科学系09级博士生佟庆涛 加拿大蒙特利尔大学09级博士生柳青 致 谢 完成本工作的主要成员: 北师大系统科学系09级博士生佟庆涛 加拿大蒙特利尔大学09级博士生柳青 Economics Department, McGill University 感谢周涛和吕琳媛对此问题的关注和有益的讨论! 谢谢大家!