用于计算智能研究 和人类主观测试的 统计检验 Hideyuki TAKAGI 日本 九州大学 Slides are downloadable from http://www.design.kyushu-u.ac.jp/~takagi Hideyuki TAKAGI 日本 九州大学 http://www.design.kyushu-u.ac.jp/~takagi/ ver. March 26, 2015 ver. July 15, 2013 ver. July 11, 2013 ver. April 23, 2013
+ 内容 用于人类主观(Human Subjective)测试 的配对比较法中的Scheffé's method 2 组 n 组 (n > 2) 数据 分布 ・unpaired t -test ・符号检验 ・Wilcoxon配对符号秩次检验 ・Friedman test ・Kruskal-Wallis test ・ one-way ANOVA (单因子方差分析) ・ two-way ANOVA (双因子方差分析) (不服从正态分布) 单因子 双因子 有参数检验 无参数检验 (服从正态分布) unpaired (独立) paired (相关) ・paired t -test ・Mann-Whitney U-test (方差分析) ANOVA + 用于人类主观(Human Subjective)测试 的配对比较法中的Scheffé's method
如何表示显著性( significance )? 仅仅直观地比较平均值? 这不科学。 适应度 世代 适应度 世代 传统的进化计算 传统的进化计算 提出的 进化计算方法1 提出的 进化计算方法2 Fig. XX n次试运行的平均收敛曲线。
如何表示显著性? 声音设计概念的例子: 退出音 哪种方法生成的退出音更好? 怎么表示呢? 用传统进化计算 生成的声音 用提出的交互式进化计 算方法1生成的声音 用提出的交互式进化计 算方法2生成的声音 哪种方法生成的退出音更好? 怎么表示呢?
没有统计测试, 你不能显示你的方法的优越性。 没有统计测试的论文可能会被拒绝。 我的方法明显更好! 统计测试
我们该用哪种测试? ANOVA 2 组 n 组 (n > 2) 数据 分布 ・unpaired t –test ・符号检验 ・Wilcoxon配对符号秩次检验 ・Friedman test ・Kruskal-Wallis test ・ one-way ANOVA (单因子方差分析) ・ two-way ANOVA (双因子方差分析) (不服从正态分布) 单因子 双因子 有参数测试 无参数测试 (服从正态分布) unpaired (独立) paired (相关) ・paired t –test (配对t测试) ・Mann-Whitney U-test ANOVA (方差检验)
(Analysis of Variance) 我们该用哪种测试? 2 组 n 组 (n > 2) 数据 分布 unpaired (独立) ・unpaired t -test ・ one-way ANOVA 有参数测试 (Analysis of Variance) ANOVA (服从正态分布) 第n世代 第n世代 paired (相关) ・paired t -test ・ two-way ANOVA unpaired (独立) ・Mann-Whitney U-test one-way data ・Kruskal-Wallis test 无参数测试 (不服从正态分布) ・sign test paired (相关) two-way data ・Friedman test ・Wilcoxon signed-ranks test
(Analysis of Variance) 我们该用哪种测试? 2 组 n 组 (n > 2) 数据 分布 ・unpaired t -test ・sign test ・Wilcoxon signed-ranks test ・Friedman test ・Kruskal-Wallis test ・ one-way ANOVA ・ two-way ANOVA one-way data two-way unpaired (independent) paired (related) ・paired t -test ・Mann-Whitney U-test (Analysis of Variance) ANOVA (不服从正态分布) 有参数测试 无参数测试 (服从正态分布) Anderson-Darling test D'Agostino-Pearson test Kolmogorov-Smirnov test Shapiro-Wilk test Jarque–Bera test ・・・・ Normality Test (正态分布检验) 找一个免费的Excel插件或软件。
(Analysis of Variance) 我们该用哪种测试? 2 组 n 组 (n > 2) 数据 分布 unpaired (独立) ・unpaired t -test unpaired data (独立数据) paired data (相关数据) ・ one-way ANOVA (Analysis of Variance) ANOVA Parametric Test (normality) group A group B 4.23 2.51 3.21 3.3 3.63 3.75 4.42 3.22 4.08 3.99 3.98 3.65 初始数据# 传统方法 提出的方法 1 4.23 2.51 2 3.21 3.30 3 3.63 3.75 4 4.42 3.22 5 4.08 3.99 6 3.98 3.65 paired (相关) ・paired t -test ・ two-way ANOVA unpaired (独立) ・Mann-Whitney U-test one-way data ・Kruskal-Wallis test Non-parametric Test (no normality) ・sign test paired (相关) two-way data ・Friedman test ・Wilcoxon signed-ranks test
(Analysis of Variance) 我们该用哪种测试? 2 组 n 组 (n > 2) 数据 分布 unpaired (独立) ・unpaired t -test unpaired data (独立数据) paired data (相关) ・ one-way ANOVA (Analysis of Variance) ANOVA Parametric Test (normality) A 组数据 B 组数据 初始数据# 遗传算法 提出的算法 paired (相关) ・paired t -test ・ two-way ANOVA unpaired (独立) ・Mann-Whitney U-test one-way data ・Kruskal-Wallis test Non-parametric Test (no normality) ・sign test paired (相关) two-way data ・Friedman test ・Wilcoxon signed-ranks test
(Analysis of Variance) 我们该用哪种测试? Q1: 配对数据测试和未配对数据测试 相比,哪种测试方法更敏感? 2 groups n groups (n > 2) data distribution A1: 对于配对数据的测试更敏感。 因为有更多的数据信息。 unpaired (独立) ・unpaired t -test unpaired data (独立) paired data (相关) ・ one-way ANOVA (Analysis of Variance) ANOVA Parametric Test (normality) A 组数据 B 组数据 初始数据# 遗传算法 提出的算法 paired (相关) ・paired t -test ・ two-way ANOVA Unpaired (i独立) ・Mann-Whitney U-test one-way data ・Kruskal-Wallis test Non-parametric Test (no normality) ・sign test paired (相关) two-way data ・Friedman test ・Wilcoxon signed-ranks test
(Analysis of Variance) 我们该用哪种测试? Q2: 应该如何设计实验性条件 来使用配对数据进行统计检验 并减少试运行的#? 2 groups n groups (n > 2) data distribution A2: 每次试运行(方法A,方法B)时都使用相 同的初始化数据。 unpaired (独立) ・unpaired t -test ・ one-way ANOVA 第n世代 显著的? (Analysis of Variance) ANOVA Parametric Test (normality) paired (相关) ・paired t -test ・ two-way ANOVA unpaired (独立) ・Mann-Whitney U-test one-way data ・Kruskal-Wallis test Non-parametric Test (no normality) ・sign test paired (相关) two-way data ・Friedman test ・Wilcoxon signed-ranks test
(Analysis of Variance) 我们该用哪种测试? Q3: 有参数测试和无参数测试相比,哪种测试 方法更敏感? 为什么? 2 groups n groups (n > 2) data distribution ・unpaired t -test ・sign test ・Wilcoxon signed-ranks test ・Friedman test ・Kruskal-Wallis test ・ one-way ANOVA ・ two-way ANOVA one-way two-way unpaired (independent) paired (related) ・paired t -test ・Mann-Whitney U-test (Analysis of Variance) ANOVA (不服从正态分布) 有参数测试 无参数测试 (服从正态分布) A3: 有参数测试。因为可以使用假设的数据分布 信息。
t –Test(t 测试) t –test ANOVA (t 测试) 2 组 n 组 (n > 2) 数据 分布 ・unpaired t -test ・符号检验 ・Wilcoxon配对符号秩次检验 ・Friedman test ・Kruskal-Wallis test ・ one-way ANOVA (单因子方差分析) ・ two-way ANOVA (双因子方差分析) (不服从正态分布) 单因子 双因子 有参数测试 无参数测试 (服从正态分布) unpaired (i独立) paired (相关) (独立) ・paired t -test ・Mann-Whitney U-test ANOVA (方差分析) t –test (t 测试)
t-Test 如何表示显著性? 显著? 第n 世代
t-Test 使用t-Test的条件: 服从正态分布 方差相同 (不是必要条件) 假设没有不同来测试差异。 (零假设) 显著的 不同? A B 12 10 14 9 7 11 15 16 19 显著的 不同? 使用t-Test的条件: 服从正态分布 方差相同 (不是必要条件)
t-Test F-Test Normality Test 使用t-Test的条件: 服从正态分布 方差相同 (不是必要条件) (零假设) Normality Test (测试是否服从正态分布) A B 12 10 14 9 7 11 15 16 19 显著的 不同? ? Anderson-Darling test D'Agostino-Pearson test Kolmogorov-Smirnov test Shapiro-Wilk test Jarque–Bera test ・・・・ 当 (p > 0.05)时, 我们假设在σ2A 和σ2B 间没有显著性区别。 使用t-Test的条件: 服从正态分布 方差相同 (不是必要条件)
t-Test Excel (仅在32 bits版本上?)在数据分析工具中有t-test和ANOVA(方差分析), 需要安装其插件。(File -> option -> add-in, and set its add-in.)
t-Test (1) t-Test: 为两个样本匹配了方法。 (2) t-Test: 假设两个样本的方差相等 第n 世代 有显著性差异? 两个方法中的每一对数据都具有相同的初始条件。 (2) t-Test: 假设两个样本的方差相等 (3) t-Test: 假设方差不等的两个样本: Welch's t-test
t-Test 样本数据 t-Test: Paired Two Sample for Means A B 4.23 2.51 3.21 3.31 3.63 3.75 4.42 3.22 4.08 3.99 3.98 3.65 3.68 3.35 4.18 3.93 3.85 3.91 3.71 3.82 Variable 1 Variable 2 Mean 3.897 3.544 Variance 0.125823333 0.208693333 Observations 10 Pearson Correlation -0.161190073 Hypothesized Mean Difference df 9 t Stat 1.794964241 P(T<=t) one-tail 0.053116886 t Critical one-tail 1.833112933 P(T<=t) two-tail 0.106233772 t Critical two-tail 2.262157163
t-Test sample data t-Test: Paired Two Sample for Means A B 4.23 2.51 2.5% 5% 当p值小于0.01或0.05时,我们认为与(p <0.01)或(p <0.05)的显著性水平有显著差异。 A > B A < B A ≈ B When A>B never happens, you may use a one-tail test. t-Test: Paired Two Sample for Means A B 4.23 2.51 3.21 3.31 3.63 3.75 4.42 3.22 4.08 3.99 3.98 3.65 3.68 3.35 4.18 3.93 3.85 3.91 3.71 3.82 Variable 1 Variable 2 Mean 3.897 3.544 Variance 0.125823333 0.208693333 Observations 10 Pearson Correlation -0.161190073 Hypothesized Mean Difference df 9 t Stat 1.794964241 P(T<=t) one-tail 0.053116886 t Critical one-tail 1.833112933 P(T<=t) two-tail 0.106233772 t Critical two-tail 2.262157163
t-Test 两组的差异显著(p <0.01)。 我们不能说两组之间存在显著差异。 (2) t-Test: 假设两个样本的方差相等 (1) t-Test: Pairs two sample for means 两组的差异显著(p <0.01)。 我们不能说两组之间存在显著差异。
(Analysis of Variance) ANOVA: 方差分析 2 组 n组 (n > 2) 数据 分布 ・unpaired t -test ・符号检验 ・Wilcoxon配对符号秩次检验 ・Friedman test ・Kruskal-Wallis test ・ one-way ANOVA ・ two-way ANOVA (不服从正态分布) 单因素 两因素 有参数测试 无参数测试 (服从正态分布) unpaired (独立) paired (相关) ・paired t -test ・Mann-Whitney U-test (Analysis of Variance) ANOVA ANOVA
ANOVA: 方差分析 第n 世代 显著性? 如果数据满足: 服从正态分布 方差相等
ANOVA: 方差分析 C A B 1. 分析两个以上的数据组。 2. 需要服从正态分布以及方差相同。 Excel在数据分析工具 11.0 12.8 9.4 9.3 11.3 12.4 11.5 9.5 16.8 16.4 14.0 14.3 16.0 15.2 17.0 15.0 13.0 14.6 13.6 15.6 12.0 17.8 13.4 12.6 18.6 10.0 10.8 15.4 C A B
= ANOVA: 方差分析 C A B 1. 分析两个以上的数据组。 2. 需要服从正态分布以及方差相同。 使用Bartlett测试检查。 Excel has ANOVA in Data Analysis Tools. 使用Bartlett测试检查。 A B C 11.0 12.8 9.4 9.3 11.3 12.4 11.5 9.5 16.8 16.4 14.0 14.3 16.0 15.2 17.0 15.0 13.0 14.6 13.6 15.6 12.0 17.8 13.4 12.6 18.6 10.0 10.8 15.4 C A B 3次 t-tests 1次 ANOVA = 三次t-test (p <0.05) 相当于一次ANOVA (p <0.14)。 1-(1-0.05)3 = 0.14
ANOVA: 方差分析 当数据独立时,使用 one-way ANOVA (单因子方差分析)。 n-th generation 当数据独立时,使用 one-way ANOVA (单因子方差分析)。 当数据彼此对应时,使用 two-way ANOVA (双因子方差分析).
ANOVA: 方差分析 Q1:什么是“单一因子”和“两个因子”? (single factor) (two factors) When data are independent, use one-way ANOVA (single factor ANOVA). When data correspond each other, use two-way ANOVA (two-factor ANOVA). 列因子 列因子 样本因子
ANOVA: 方差分析 单因子 (one-way) ANOVA 双因子 (two-way) ANOVA 列因子 列因子 A组 B组 C组 4.23 2.51 3.04 3.21 3.3 2.89 3.63 3.75 3.55 4.42 3.22 4.39 4.08 3.99 3.86 3.98 3.65 3.5 2.62 3.6 2.93 初始 状态 A 组 B组 C组 #1 4.23 2.51 3.04 #2 3.21 3.3 2.89 #3 3.63 3.75 3.55 #4 4.42 3.22 4.39 #5 4.08 3.99 3.86 #6 3.98 3.65 3.5 #7 2.62 3.6 #8 2.93 样本因子 我们不能说三个群体是显著不同的。(p=0.089) 三组之间存在显著差异。 (p <0.05)
ANOVA: 方差分析 Output of the one-way ANOVA 当 (p<0.01或0.05) 时, Source of Variation SS df MS F P-value F crit Between Groups 6.11342 2 3.05671 15.30677 3.6E-05 3.354131 Within Groups 5.39181 27 0.199697 Total 11.50523 29 当 (p<0.01或0.05) 时, 数据组之间存在显着差异。 样本(例如初始条件)之间的显著差异不能被发现(p> 0.05)。 显著差异可以在各列之间找到(例如三种方法) (p <0.01)。 我们不需要关心两个因素(例如初始条件与方法)之间的相互作用效应 (p > 0.05)。 列 因子 Output of the two-way ANOVA Source of Variation SS df MS F P-value F crit Sample 0.755233 2 0.377617 2.755097 0.103596 3.885294 Columns 3.582272 1 26.13631 0.000256 4.747225 Interaction 0.139411 0.069706 0.508573 0.613752 Within 1.644733 12 0.137061 Total 6.12165 17 A B C 11.0 12.8 9.4 9.3 11.3 12.4 11.5 9.5 16.8 16.4 14.0 14.3 16.0 15.2 17.0 15.0 13.0 14.6 13.6 15.6 12.0 17.8 13.4 12.6 18.6 10.0 10.8 15.4 样本因子
ANOVA: 方差分析 Q1: A,B和C的显著性(significant )差异在哪里? A1: 需要在每列的所有配对数据中应用多重比较。 (Fisher‘s PLSD method, Scheffé method, Bonferroni-Dunn test, Dunnett method, Williams method, Tukey method, Nemenyi test, Tukey-Kramer method, Games/Howell method, Duncan’s new multiple range test, Student-Newman-Keuls method, etc. 每种方法都有不同的特点。) 列因子 Source of Variation SS df MS F P-value F crit Sample 0.755233 2 0.377617 2.755097 0.103596 3.885294 Columns 3.582272 1 26.13631 0.000256 4.747225 Interaction 0.139411 0.069706 0.508573 0.613752 Within 1.644733 12 0.137061 Total 6.12165 17 A B C 11.0 12.8 9.4 9.3 11.3 12.4 11.5 9.5 16.8 16.4 14.0 14.3 16.0 15.2 17.0 15.0 13.0 14.6 13.6 15.6 12.0 17.8 13.4 12.6 18.6 10.0 10.8 15.4 样本因子 显著性差异?
(Analysis of Variance) 非参数测试 2 组 n 组 (n > 2) 数据 分布 ・unpaired t -test ・符号检验 ・Wilcoxon配对符号秩次检验 ・Friedman test ・Kruskal-Wallis test ・ one-way ANOVA ・ two-way ANOVA (不服从正态分布) 单因子 双因子 有参数测试 无参数测试 (服从正态分布) unpaired (independent) paired (related) (独立) (相关) ・paired t -test ・Mann-Whitney U-test (Analysis of Variance) ANOVA 如果不能保证正态性和相等方差,请使用非参数测试。
Mann-Whitney U-test ANOVA 2 组 n 组 (n > 2) 数据 分布 ・unpaired t -test ・符号检验 ・Wilcoxon配对符号秩次检验 ・Friedman test ・Kruskal-Wallis test ・ one-way ANOVA (单因子方差分析) ・ two-way ANOVA (双因子方差分析) (不服从正态分布) 单因子 双因子 有参数测试 无参数测试 (服从正态分布) unpaired (独立) paired (相关) ・paired t -test ・Mann-Whitney U-test ANOVA (方差分析)
(Wilcoxon-Mann-Whitney test, 双样本Wilcoxon test) Mann-Whitney U-test (Wilcoxon-Mann-Whitney test, 双样本Wilcoxon test) 两组比较。 数据没有正态性。 两组之间没有相关的数据(独立的)。 ? 不服从 正态分布 ? 第n 世代
(Wilcoxon-Mann-Whitney test, 双样本Wilcoxon test) Mann-Whitney U-test (Wilcoxon-Mann-Whitney test, 双样本Wilcoxon test) 1. 计算U值。 2 3 4 U = 0 + 2 + 3 + 4 = 9 U' = 11 (U + U' = n1n2) 当两个值相同时,计为0.5。 ( )
Mann-Whitney U-test (cont.) (Wilcoxon-Mann-Whitney test, 双样本Wilcoxon test) 2. 查询U-test表 使用U或者U’当中较小的数值。 当n1 ≤ 20并且n2 ≤ 20,查询Mann-Whitney test表。 (其中n1和n2是两组数据的数量。) 除此之外,U大致遵从以下正态分布。 正规化U为 并检查标准正态分布表 的 , 其中 且 。 使用Excel的功能计算z值的p值: p-value = 1 - NORM.S.DIST( z )
Examples: Mann-Whitney U-test (Wilcoxon-Mann-Whitney test,双样本Wilcoxon test) Ex.1 Ex.2 0.5 2.5 4 5 Ex.3 2 3 4 3.5 5 5 5 (p > 0.05) 5 U = 9 U' = 11 U = 12 U' = 13 U = 23.5 U' = 1.5 (p > 0.05) (p > 0.05) significant (p < 0.05) (p < 0.05) (p < 0.01) n2 n2 4 5 6 ・・・ ー 1 2 3 4 5 6 ・・・ ー 1 n1 n1
Exercise: Mann-Whitney U-test (Wilcoxon-Mann-Whitney test,双样本Wilcoxon test) 2.5 4 5 6 U = 29.5 U' = 6.5 因为U' > 5, (p > 0.05): 无统计学差异(no significant) ( ) (p < 0.05) (p < 0.01) n2 n2 4 5 6 7 3 ー 1 2 4 5 6 7 3 ー 1 2 n1 n1
符号检验 ANOVA ・符号检验 2 组 N组 (n > 2) 数据分布 ・unpaired t -test ・Wilcoxon配对符号秩次检验 ・Friedman test ・Kruskal-Wallis test ・ one-way ANOVA (单因子方差分析) ・ two-way ANOVA (双因子方差分析) (不服从正态分布) 单因子 数据 双因子 有参数检验 无参数检验 (服从正态分布) unpaired (独立) paired (相关) ・paired t -test ・Mann-Whitney U-test ANOVA (方差分析) 2 组
符号检验 (1)符号检验 使用胜与负数量的显著性检验(significance test)。 (2)Wilcoxon配对符号秩次检验 两组 数据 胜与负 的数量 胜与负 的级别 173 174 143 137 158 151 156 176 180 165 162 - + -1 +6 +7 +13 -4 +3
符号检验 通过比较具有相同初始数据的运行来计算胜与负的数量。 检查符号检验表以显示两种方法的显著性(significance)。 第n代
符号检验 图3 在 (+, - )标记分别表明我们提出的方法是否比常规DE显着( significance )更好或更差(p≤0.05)。 Y. Pei and H. Takagi, "Fourier analysis of the fitness landscape for evolutionary search acceleration," IEEE Congress on Evolutionary Computation (CEC), pp.1-7, Brisbane, Australia (June 10-15, 2012). (+, - )标记分别表明我们提出的方法是否比常规DE显着( significance )更好或更差(p≤0.05)。 图2 在同篇论文中
符号检验 示例 模式识别方法A和B的表现是否显著不同(significantly different)? 如何查询? 练习 Significance 等级 Significance 等级 % % % % 示例 模式识别方法A和B的表现是否显著不同(significantly different)? 情况n1: 两种方法都成功。 情况n2: 方法A成功,并且方法B失败。 情况n3: 方法A失败,并且方法B成功。 情况n4:两种方法都失败。 如何查询? 让N = n2 + n3。 查询左侧表格的N值。 当min(n2, n3) 小于N的数量, 我们可以说在XX等级上存在显著差异(significantly different) 。 练习 n2 = 12和n3 = 28时是否存在显著差异(significantly different)? ANSWER: 检查右侧表格的N = 40. 由于n2大于11并小于13, 我们能说两者之间在 (p < 0.05) 等级上存在显著差异(significantly different) ,但不能说在(p < 0.01)等级上存在。
符号检验 让我们俩想想当N = 17的时候。 level of significance % % 可以说n1和n2 具有显著差异(significantly different), (n1 vs. n2) = (17 vs. 0), (16 vs. 1), or (15 vs. 2) (p < 0.01) or (n1 vs. n2) = (14 vs. 3) or (13 vs. 4) (p < 0.05)
练习: 符号检验 检查以下情况的 显著性( significance ): 16 vs. 4 14 vs. 1 9 vs. 3 level of significance % % 检查以下情况的 显著性( significance ): 16 vs. 4 14 vs. 1 9 vs. 3 18 vs. 5
Wilcoxon配对符号秩次检验 ANOVA ・符号检验 2 组 N组 (n > 2) 数据分布 ・unpaired t -test ・Friedman test ・Kruskal-Wallis test ・ one-way ANOVA (单因子方差分析) ・ two-way ANOVA (双因子方差分析) (不服从正态分布) 单因子 数据 双因子 有参数检验 无参数检验 (服从正态分布) unpaired (独立) paired (相关) ・paired t -test ・Mann-Whitney U-test ANOVA (方差分析)
Wilcoxon配对符号秩次检验 Q: 如果符号检验不能测出显著性(significance),怎么办? A: 尝试Wilcoxon配对符号秩次检验。它比符号检验更加 敏感,因为使用了更多的信息。 第n代
Wilcoxon配对符号秩次检验 (1)符号检验 使用胜与负数量的显著性检验(significance test)。 两组 数据 胜与负 的数量 胜与负 的级别 173 174 143 137 158 151 156 176 180 165 162 - + -1 +6 +7 +13 -4 +3
Wilcoxon配对符号秩次检验 Example: (step 1) (step 2) (step 3) (step 4) v (system A) v (system B) difference d rank of |d| add sign to the ranks rank of fewer # of signs 182 163 19 7 169 142 27 8 172 173 -1 1 143 137 6 4 158 151 5 156 13 176 3 165 168 -3 2 -2 (step 5) (step 6) Wilcoxon test table
当n > 25 n = 8 T = 3 (step 6) one-tail p < 0.025 p < 0.005 Wilcoxon Test Table: T的significance point (step 6) n = 8 T = 3 one-tail p < 0.025 p < 0.005 two-tail p < 0.05 p < 0.01 n = 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2 3 5 29 34 40 46 52 58 65 73 81 89 1 27 32 37 42 48 54 61 68 T=3 ≤ 3 (n=8, p<0.05), 那么A和B之间的差异是显著(significant)的。 T=3 > 0 (n=8, p<0.01), 那么我们不能说A和B之间的差异是显著(significant)的。 当n > 25 As T follows the below normal distribution roughly, normalize T as the below and check a standard normal distribution table with the z; see and in the above equation.
Wilcoxon配对符号秩次检验 Tips: 当d = 0,忽略该组数据。 当存在相同的|d|时, 取次序的平均值。 (step 1) v (system A) v (system B) difference d rank of |d| add sign to the ranks rank of fewer # of signs 176 163 13 7 → 6.5 6.5 142 172 173 -1 1 143 137 6 4 158 151 7 5 156 6 → 6.5 3 165 168 -3 2 -2 Tip #2 Tip #1 Tip #2 取次序的平均值 6.5 = (5+6+7+8)/4. Tips: 当d = 0,忽略该组数据。 当存在相同的|d|时, 取次序的平均值。 10 1 2 3 4 5 6 7 8 9
练习1: Wilcoxon配对符号秩次检验 n = (step 1) (step 2) (step 3) (step 4) v (system A) v (system B) difference d rank of |d| add sign to the ranks rank of fewer # of signs 182 163 169 142 173 172 143 137 158 151 156 176 165 168 n = (step 5) T = (step 6) Wilcoxon test table
练习1: Wilcoxon配对符号秩次检验 n = 8 (step 1) (step 2) (step 3) (step 4) v (system A) v (system B) difference d rank of |d| add sign to the ranks rank of fewer # of signs 182 163 19 7 169 142 27 8 173 172 1 143 137 6 4 158 151 5 156 13 176 3 165 168 -3 2 -2 n = 8 (step 5) T = 2 (step 6) Wilcoxon test table 由于T(=2) < 3, A和B之间存在显著差异(significant difference)(p<0.05)。 但是,由于0 < T (=2), 我们不能说在(p<0.01)的等级下存在。
练习2: Wilcoxon配对符号秩次检验 n = (step 1) (step 2) (step 3) (step 4) v (system A) v (system B) difference d rank of |d| add sign to the ranks rank of fewer # of signs 27 31 20 25 34 33 23 29 26 24 30 35 n = (step 5) (step 6) Wilcoxon test table
练习2: Wilcoxon配对符号秩次检验 n = 8 (no count for d = 0.) (step 1) (step 2) v (system A) v (system B) difference d rank of |d| add sign to the ranks rank of fewer # of signs 27 31 -4 5 -5 20 25 6 -6 34 33 1 2 -2 4 23 29 7.5 -7.5 26 -1 24 30 35 (不需要在乎d = 0的情况。) n = 8 (no count for d = 0.) (step 5) T = 4 (step 6) Wilcoxon test table 由于T > 3, 我们不能说A和B之间存在显著差异(significant difference)。
练习3: Wilcoxon配对符号秩次检验 解释如何应用这个测试来测试两个组在下一代是否有显著差异(significantly different)? 第n代
Kruskal-Wallis Test ANOVA ・Kruskal-Wallis test ・符号检验 2 组 N组 (n > 2) 数据分布 ・unpaired t -test ・符号检验 ・Wilcoxon配对符号秩次检验 ・Friedman test ・ one-way ANOVA (单因子方差分析) ・ two-way ANOVA (双因子方差分析) (不服从正态分布) 双因子 数据 有参数检验 无参数检验 (服从正态分布) unpaired (独立) paired (相关) ・paired t -test ・Mann-Whitney U-test ANOVA (方差分析) ・Kruskal-Wallis test
Kruskal-Wallis Test 比较两组以上。 数据非正态分布。 数组间没有关联的数据(独立的)。 ? ? 非正态分布? 第n代 ?
Kruskal-Wallis Test 我们来用数据的排名。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Kruskal-Wallis Test 如何使用 给所有数据排序。 计算N, k, ni 和 Ri 。 计算统计值H。 Ni : 第i组数据的数量 Ri : 第i组所有数据名次的和 如何使用 给所有数据排序。 计算N, k, ni 和 Ri 。 计算统计值H。 当k = 3且N ≤ 17时, 将H与Kruskal-Wallis test table中的 significant point进行比较。 否则,假定H遵循χ2 的分布,并使用(k-1)自由度χ2 的分布表来检验H。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 R1 = 38 R2 = 69 R3 = 46
Example: Kruskal-Wallis Test Kruskal-Wallis Test Table (for k = 3 and N ≤17) n1 n2 n3 p < 0.05 p < 0.01 2 - 3 5.606 7.200 4.714 4 5.791 6.746 5.333 5 6.649 7.079 5.160 6.533 6 5.615 7.410 5.346 6.655 7 5.620 7.228 5.143 7.000 8 5.617 7.350 5.356 6.664 9 5.589 7.422 5.260 6.897 10 5.588 7.372 5.120 6.537 11 5.583 7.418 5.164 6.766 5.599 7.144 12 5.173 6.761 5.656 7.445 13 5.199 6.792 5.610 7.500 5.361 5.623 7.550 5.444 6.444 7.585 5.251 6.909 5.652 7.614 5.349 6.970 5.661 7.617 5.357 6.839 5.706 7.578 5.316 7.022 5.602 7.591 5.340 7.006 5.607 7.697 5.362 7.042 5.614 7.706 5.374 7.094 5.670 7.733 5.350 7.134 5.625 7.725 5.455 7.036 5.689 7.756 5.273 7.205 5.678 7.796 7.340 5.688 7.810 5.376 7.321 5.692 7.654 5.393 5.657 7.760 5.400 7.364 6.681 7.795 5.345 7.357 5.650 7.814 5.365 7.396 5.779 7.853 5.339 7.339 5.704 7.910 7.376 5.666 7.823 7.450 7.936 5.415 7.440 5.733 7.931 5.396 7.447 5.718 7.992 5.420 7.514 5.724 8.000 5.410 7.467 8.039 7.491 5.780 5.404 7.522 5.729 8.028 5.392 7.566 5.708 8.108 5.398 5.765 8.124 5.403 7.571 N = n1+n2+n3 = 17 data k = 3 groups (n1, n2, n3) = (6, 5, 6) (R1, R2, R3) = (38, 69, 46) = 6.609 因为(n1, n2, n3) = (6, 5, 6)的significant points在(p<0.05)和(p<0.01) 的等级上分别为5.765和8.124, 在三组数据中的某处存在显著差(significantly different)异(p<0.05)。 6.609 8.124 5.765 significance point (p<0.05) significance point (p<0.01)
Example: Kruskal-Wallis Test Kruskal-Wallis Test Table (for k = 3 and N ≤17) n1 n2 n3 p < 0.05 p < 0.01 2 - 3 5.606 7.200 4.714 4 5.791 6.746 5.333 5 6.649 7.079 5.160 6.533 6 5.615 7.410 5.346 6.655 7 5.620 7.228 5.143 7.000 8 5.617 7.350 5.356 6.664 9 5.589 7.422 5.260 6.897 10 5.588 7.372 5.120 6.537 11 5.583 7.418 5.164 6.766 5.599 7.144 12 5.173 6.761 5.656 7.445 13 5.199 6.792 5.610 7.500 5.361 5.623 7.550 5.444 6.444 7.585 5.251 6.909 5.652 7.614 5.349 6.970 5.661 7.617 5.357 6.839 5.706 7.578 5.316 7.022 5.602 7.591 5.340 7.006 5.607 7.697 5.362 7.042 5.614 7.706 5.374 7.094 5.670 7.733 5.350 7.134 5.625 7.725 5.455 7.036 5.689 7.756 5.273 7.205 5.678 7.796 7.340 5.688 7.810 5.376 7.321 5.692 7.654 5.393 5.657 7.760 5.400 7.364 6.681 7.795 5.345 7.357 5.650 7.814 5.365 7.396 5.779 7.853 5.339 7.339 5.704 7.910 7.376 5.666 7.823 7.450 7.936 5.415 7.440 5.733 7.931 5.396 7.447 5.718 7.992 5.420 7.514 5.724 8.000 5.410 7.467 8.039 7.491 5.780 5.404 7.522 5.729 8.028 5.392 7.566 5.708 8.108 5.398 5.765 8.124 5.403 7.571 N = n1+n2+n3 = 17 data k = 3 groups (n1, n2, n3) = (6, 5, 6) (R1, R2, R3) = (38, 69, 46) Q1: A, B, C中的显著性(significant )差异在哪里? A1: 需要在每列的所有配对数据中应用多重比较。 (Fisher‘s PLSD method, Scheffé method, Bonferroni-Dunn test, Dunnett method, Williams method, Tukey method, Nemenyi test, Tukey-Kramer method, Games/Howell method, Duncan’s new multiple range test, Student-Newman-Keuls method, etc.每种方法都有不同的特点。) = 6.609 因为(n1, n2, n3) = (6, 5, 6)的significant points在(p<0.05)和(p<0.01) 的等级上分别为5.765和8.124, 在三组数据中的某处存在显著差(significantly different)异(p<0.05)。 6.609 8.124 5.765 significance point (p<0.05) significance point (p<0.01)
Exercise: Kruskal-Wallis Test 1 2 4 7 10 8 11 12 13 3 5 6 9 N = n1+n2+n3 = k = (n1, n2, n3) = (R1, R2, R3) = = 13 samples 3 groups ( 5, 4, 4) (24, 44, 23) 6.227 7.760 5.657 significance point (p<0.05) significance point (p<0.01) 6.227 三组数据中的某处存在显著差异(significantly different)(p<0.05). 24 44 23
Friedman Test ANOVA ・Friedman test ・符号检验 2组 N组 (n > 2) 数据分布 ・unpaired t -test ・符号检验 ・Wilcoxon配对符号秩次检验 (不服从正态分布) 有参数测试 无参数测试 (服从正态分布) unpaired (独立) paired (相关) ・paired t -test ・Mann-Whitney U-test ANOVA (方差分析) ・ one-way ANOVA (单因子方差分析) ・ two-way ANOVA (双因子方差分析) 单因子 数据 ・Kruskal-Wallis test ・Friedman test
Friedman Test 当 (1) 数据多于两组, (2) 数据间存在关联(非独立), (3) 对two-way ANOVA 的条件不满意时,让我们 使用数据的排名(ranks)和Friedman test。 methods (ex.)识别率的比较。 a b c d benchmark tasks methods a b c d A 0.92 0.75 0.65 0.81 B 0.48 0.45 0.41 0.52 C 0.56 0.47 0.50 D 0.61 0.54 4 3 2 1 4 3 2 4 1 4 2 3 2 3 1 1
Friedman Test Step 1: 制作等级表(ranking table)。 Step 2: 将你想测试factors的等级求和。 Step 3: 计算Friedman test值, χ2r。 Step 4: 当k =3或4, 比较 χ2r 和Friedman test table中的significant point。 除此之外, 使用(k-1) 自由度下的χ2 表。 methods 1 2 3 4 a b c d benchmark tasks method a b c d A 4 2 1 3 B C D Σ 15 6 7 12 数据的数量 (n = 4) method的数量(k = 4) Methods中的等级 这里(k, n)是factors 1和2等级的数量。
示例:Friedman Test Step 1:制作等级表(ranking table)。 Step 2:将你想测试factors的等级求和。 Step 3计算Friedman test值, χ2r。 Step 4: 因为(k,n) = (4,4)的significant point为7.80, 那么a, b, c和d 四种 methods中的某处存在显著差异( significantly different )(p<0.05)。 benchmark tasks method a b c d A 4 2 1 3 B C D Σ 15 6 7 12 # of data (n = 4) Friedman test table. # of methods (k = 4) k n p<0.05 p<0.01 3 6.00 - 4 6.50 8.00 5 6.40 8.40 6 7.00 9.00 7 7.14 8.86 8 6.25 9 6.22 9.56 ∞ 5.99 9.21 7.40 7.80 9.60 9.96 7.81 11.34 8.1 9.6 7.8 significance point of (p<0.05) significance point of (p<0.01)
示例:Friedman Test Q1: a,b,c和d中的显著性(significant )在哪里? Step 1:制作等级表(ranking table)。 Step 2:将你想测试factors的等级求和。 Step 3计算Friedman test值, χ2r。 Step 4: 因为(k,n) = (4,4)的significant point为7.80, 那么a, b, c和d 四种 methods中的某处存在显著差异( significantly different )(p<0.05)。 benchmark tasks method a b c d A 4 2 1 3 B C D Σ 15 6 7 12 Q1: a,b,c和d中的显著性(significant )在哪里? # of data (n = 4) A1: 需要在每列的所有配对数据中应用多重比较。 (Fisher‘s PLSD method, Scheffé method, Bonferroni-Dunn test, Dunnett method, Williams method, Tukey method, Nemenyi test, Tukey-Kramer method, Games/Howell method, Duncan’s new multiple range test, Student-Newman-Keuls method, etc.每种方法都有不同的特点。) Friedman test table. # of methods (k = 4) k n p<0.05 p<0.01 3 6.00 - 4 6.50 8.00 5 6.40 8.40 6 7.00 9.00 7 7.14 8.86 8 6.25 9 6.22 9.56 ∞ 5.99 9.21 7.40 7.80 9.60 9.96 7.81 11.34 8.1 9.6 7.8 significance point of (p<0.05) significance point of (p<0.01)
多重比较 不要简单地应用多对比较。 Example 4C2 = 6次成对比较在(p < 0.05) 当多组数据间有显著差异(significant difference)时,采用多重比较来找到哪组与其他组有显著差异(significant difference)。 Example 4C2 = 6次成对比较在(p < 0.05) 不要简单地应用多对比较。 1 - (1 - 0.05)6 = significance level 26.5%!
Multiple Comparisons 解决办法是用带有更严格的显著性水平(significance level)的多重检验。 示例 当多组数据间有显著差异(significant difference)时,采用多重比较来找到哪组与其他组有显著差异(significant difference)。 解决办法是用带有更严格的显著性水平(significance level)的多重检验。 示例 4C2 = 6次成对比较在(p < 0.05) 1 - (1 - 0.05)6 = significance level 26.5%!
-- Bobferroni method -- 多重比较 -- Bobferroni method -- 当配对比较方法(pair comparisons)设置为m times时, 同时取显著性水平(significance level)为p / m 。 4C2 = 6 次配对比较时 (p < ) 0.05 6 特征: (1) 简单(simple)。 (2) 较严格(rather strict),也就是说发现显著性(significances)更困难。
-- Holm method -- 多重比较 修正的Bonferroni method更容易测出显著性(significances)。 例 配对比较 p-value corrected p-value eqn. corrected p-value 0.0076 = p-value* 6 0.0456 0.0095 = p-value* 5 0.0475 0.0280 = p-value* 4 0.1120 0.0320 = p-value* 3 0.0960 0.0380 = p-value* 2 0.0760 0.0410 = p-value* 1 vs. vs. vs. vs. vs. vs.
+ 配对比较法中的Scheffé's Method t -test ANOVA 2 组 n 组 (n > 2) 数据分布 服从正态分布 (Analysis of Variance) one-way ANOVA 服从正态分布 (有参数检验) t -test two-way ANOVA one-way data 不服从 正态分布 (无参数检验) ・kruskal-wallis test ・sign test ・Wilcoxon Signed-Ranks Test two-way data ・Friedman test + 用于人类主观(Human Subjective)测试 的配对比较法中的Scheffé's method
配对比较法中的Scheffé's Method room lighting design by optimizing LED assignments image enhancement processing lighting design of 3-D CG Evolutionary Computation Target System subjective evaluations ?? Interactive Evolutionary Computation room layout planning design IEC hearing-aid fitting measuring mental scale MEMS design geological simulation 74
配对比较法中的Scheffé's Method ANOVA based on nC2 paired comparisons for n objects. 基于对n个对象进行的nC2次配对比较的ANOVA。 even better slightly better ANOVA even better slightly better even better slightly better significance check using a yardstick 75
配对比较法中的Scheffé's Method 原本的方法和3个改进的方法 所有受试者必须评价所有的配对对象 no yes original (原法, 1952) Ura's variation (浦の変法, 1956) Haga's variation (芳賀の変法) Nakaya's variation (中屋の変法, 1970) 顺序效应 顺序效应 order effect (1) and then (2) and then 可能得到不同的评价结果。 76
配对比较法中的Scheffé's Method 要求 N 个受试者用3,5或7个等级评价t 个对象。 为这些等级分别分配[-1,+1],[-2,+2]或[-3,+3]。 然后开始计算(参考其他资料) 调查问卷 Total row data even better slightly better O1 O2 O3 O4 O5 O6 A1 - A2 2 1 A1 - A3 A2 - A3 -1 进行配对比较。Paired comparisons for t=3 objects. 对 t = 3个对象 6个受试者 (N = 6) ・・・ 77
成为他/她的女朋友/男朋友,最好的礼物是什么? Ex. Q. 应用案例: 成为他/她的女朋友/男朋友,最好的礼物是什么? [场景] 她/他是我爱慕的人。 在我们大学毕业之前,我想成为她/他的男朋友/女朋友。为了脱单,我决定赠送3000日元左右的东西,来表达我的心声。 我向你展示5C2对礼物。请比较每一对,并在五个级别上标记您的相应的评估。 strap for a mobile phone invitation to a dinner tea /coffee stuffed animal fountain pen Ex. Q. ・・・・ 78
成为他/她的女朋友/男朋友,最好的礼物是什么? Scheffé's Method配对比较法的结果(Nakaya's variation) 成为他/她的女朋友/男朋友,最好的礼物是什么? (significant difference) 男生给出的礼物 女生给出的礼物 -1 -0.5 0 0.5 1 茶叶或毛绒玩具怎么样? effective more less -1 -0.5 0 0.5 1 我将用晚餐抓住她的心。 effective more less 我认为有效 -1 -0.5 0 0.5 1 effective more less 我不愿意接受它,因为我们没有在一起。 -1 -0.5 0 0.5 1 吃! 吃! 吃! effective more less 然而现实是... 79
配对比较法中的Scheffé's Method 由Ura和Nakaya改进的方法 原始的方法和3个改进的方法 所有受试者必须评价所有的配对对象 no yes original (原法, 1952) Ura's variation (浦の変法, 1956) Haga's variation (芳賀の変法) Nakaya's variation (中屋の変法, 1970) 顺序效应 80
配对比较法中的Scheffé's Method 由Ura改进的方法 Pairwise comparisons for objects which are effected by display order (order effect). 对受展示顺序影响的对象进行匹配比较。(顺序效应) even better slightly better even better slightly better -2 -1 1 2 -2 -1 1 2 even better slightly better even better slightly better -2 -1 1 2 -2 -1 1 2 even better slightly better even better slightly better -2 -1 1 2 -2 -1 1 2
配对比较法中的Scheffé's Method 由Ura改进的方法 要求N个受试者用3 , 5或7个等级对t个对象的2×tC2对进行评价,并分别分配[-1,+1],[-2,+2]或[-3,+3]。 even better slightly better even better slightly better -2 -1 1 2 -2 -1 1 2 even better slightly better even better slightly better -2 -1 1 2 -2 -1 1 2 even better slightly better even better slightly better -2 -1 1 2 -2 -1 1 2
配对比较法中的Scheffé's Method 由Ura改进的方法 Step 1: 制作每个受试者的配对比较的表格。 better slightly better even slightly better better A1 -2 -1 1 2 A2 A1 -2 -1 1 2 A3 A1 A2 A3 A4 -1 3 1 A1 -2 -1 1 2 A4 A2 -2 -1 1 2 A3 A2 -2 -1 1 2 A4 A3 -2 -1 1 2 A4 ・・・ ・・・ ・・・
配对比较法中的Scheffé's Method 由Ura改进的方法 Step 1: 制作每个受试者的配对比较的表格。 Subject O1 : 第l 个受试者对第i 个对象和第j 个对象的评价值。 Subject O2 Subject O3
配对比较法中的Scheffé's Method 由Ura改进的方法 Step 2: 制作一张表格,汇总所有受试者的数据并计算所有对象的平均评估值。 27 13 -12 -28 4个对象的平均值 其中 t : 对象的个数(4) N : 受试者的个数(3) -1.1667 0.5417 -0.5000 1.1250 A4 A3 A2 A1
配对比较法中的Scheffé's Method 由Ura改进的方法 Step 3: 制作一个ANOVA 表格。 无偏方差unbiased variance = S/f F = 无偏方差 的无偏方差 for F tests.
配对比较法中的Scheffé's Method 由Ura改进的方法 ANOVA table.
配对比较法中的Scheffé's Method 由Ura改进的方法 -1.1667 0.5417 -0.5000 1.1250 A4 A3 A2 A1 在A1 - A4中有显著性差异(significant difference)。 ANOVA table.
配对比较法中的Scheffé's Method 由Ura改进的方法 Step 4: 应用多重比较。 Q1: A1, A2和A3 中的显著性(significant )差异在哪里? A1: 需要在每列的所有配对数据中应用多重比较。 (Fisher's PLSD method, Scheffé method, Bonferroni-Dunn test, Dunnett method, Williams method, Tukey method, Nemenyi test, Tukey-Kramer method, Games/Howell method, Duncan's new multiple range test, Student-Newman-Keuls method, etc.每种方法都有不同的特点。)
配对比较法中的Scheffé's Method 由Ura改进的方法 Step 4: 在所有的配对中应用多重比较 找出哪一个距离是显著的(significant)。 (Fisher's PLSD method, Scheffé method, Bonferroni-Dunn test, Dunnett method, Williams method, Tukey method, Nemenyi test, Tukey-Kramer method, Games/Howell method, Duncan's new multiple range test, Student-Newman-Keuls method, etc. Each has different characteristics.) 一个简单的多重比较的示例。 Calculate a studentized yardstick 当 a difference of average > a studentized yardstick,这个距离是有显著意义的(the distance is significant)。 -1.1667 0.5417 -0.5000 1.1250 A4 A3 A2 A1
配对比较法中的Scheffé's Method 由Ura改进的方法 Step 4: 一个简单的多重比较的示例。 (studentized yardstick) 其中 分别是Sε的一个无偏方差, 对象数量和受试者数量。 is a studentized range obtained is a statistical test table for t, the degree of freedom of Sε ( ), and the significant level of φ 。 在ANOVA 表格中查看这些变量。 When (t, f ) = (4,21), studentized yardsticks for significance levels of 5% and 1% are: (See in the next slide.)
Studentized yardstick 2 3 4 5 6 7 8 9 10 12 15 20 1 18.0 27.0 32.8 37.1 40.4 43.1 45.4 47.4 49.1 52.0 55.4 59.6 6.09 8.30 9.80 10.9 11.7 12.4 13.0 13.5 14.0 14.7 15.7 16.8 4.50 5.91 6.82 7.50 8.04 8.48 8.85 9.18 9.46 9.95 10.5 11.2 3.93 5.04 5.76 6.29 6.71 7.05 7.35 7.60 7.83 8.21 8.66 9.23 3.64 4.60 5.22 5.67 6.03 6.33 6.58 6.80 6.99 7.32 7.72 3.46 4.34 4.90 5.31 5.63 5.89 6.12 6.32 6.49 6.79 7.14 7.59 3.34 4.16 4.68 5.06 5.36 5.61 5.82 6.00 6.16 6.43 6.76 7.17 3.26 4.04 4.53 4.89 5.17 5.40 5.60 5.77 5.92 6.18 6.48 6.87 3.20 3.95 4.42 4.76 5.02 5.24 5.43 5.74 5.98 6.28 6.64 3.15 3.88 4.33 4.65 4.91 5.12 5.30 5.46 5.83 6.11 6.47 11 3.11 3.82 4.26 4.57 4.82 5.03 5.20 5.35 5.49 5.71 5.99 3.08 3.77 4.20 4.51 4.75 4.95 5.27 5.62 5.88 6.21 13 3.06 3.73 4.15 4.45 4.69 4.88 5.05 5.19 5.32 5.53 5.79 14 3.03 3.70 4.11 4.41 4.67 4.83 4.99 5.10 5.25 5.72 3.01 3.67 4.08 4.37 4.78 4.94 5.08 5.66 5.96 16 3.00 3.65 4.05 4.56 4.74 5.15 5.59 5.90 17 2.98 3.63 4.02 4.30 4.52 4.71 4.86 5.11 5.55 5.84 18 2.97 3.61 4.00 4.28 4.49 4.96 5.07 5.50 19 2.96 3.59 3.98 4.25 4.47 4.79 4.92 5.23 5.75 2.95 3.58 3.96 4.23 4.62 4.77 5.01 24 2.92 3.53 3.90 4.17 4.54 4.81 30 2.89 3.49 3.84 4.10 4.46 4.72 5.00 5.21 5.48 40 2.86 3.44 3.79 4.39 4.63 60 2.83 3.40 3.74 4.31 4.44 4.55 120 2.80 3.36 3.69 3.92 4.24 4.36 4.48 5.13 ∞ 2.77 3.31 3.86 4.03 4.29 4.80
配对比较法中的Scheffé's Method 由Ura改进的方法 Step 4: 一个简单的多重比较的示例。
配对比较法中的Scheffé's Method 由Ura和Nakaya改进的方法 原始的方法和3个改进的方法 所有受试者必须评价所有的配对对象 no yes original (原法, 1952) Ura's variation (浦の変法, 1956) Haga's variation (芳賀の変法) Nakaya's variation (中屋の変法, 1970) 顺序效应 94
配对比较法中的Scheffé's Method 由Nakaya改进的方法 配对比较可以比较没有顺序效应(order effect)的对象。 Pairwise comparisons for objects that can be compared without order effect. even better slightly better -2 -1 1 2
配对比较法中的Scheffé's Method 由Nakaya改进的方法 要求 N 个受试者用3,5或7个等级评价t 个对象。 为这些等级分别分配[-1,+1],[-2,+2]或[-3,+3]。 然后开始计算(参考其他资料) 调查问卷 even better slightly better -2 -1 1 2 6个受试者(N = 6) O1 O2 O3 O4 O5 O6 A1 - A2 2 3 1 A1 - A3 A2 - A3 -3 -2 -1 Paired comparisons 进行配对比较。 对 t = 3个对象 for t=3 objects. 96
配对比较法中的Scheffé's Method 由Nakaya改进的方法 Step 1: 制作每个受试者的配对比较的表格。 : 第l 个受试者对比第i 个对象和第j 个对象的评价值。
配对比较法中的Scheffé's Method 由Nakaya改进的方法 Step 2: 制作一张表格,汇总所有受试者的数据并计算所有对象的平均评估值。 4个对象的平均值 其中 t : 对象个数(3) N : 受试者人数(6)
配对比较法中的Scheffé's Method 由Nakaya改进的方法 Step 3: 制作一个ANOVA表。 A1,A2 和A3之间有显著性差异(significant difference )。 ANOVA table.
配对比较法中的Scheffé's Method 由Nakaya改进的方法 Step 4: 应用多重比较。 Q1: A1, A2和A3 中的显著性(significant )差异在哪里? A1: 需要在每列的所有配对数据中应用多重比较。 (Fisher's PLSD method, Scheffé method, Bonferroni-Dunn test, Dunnett method, Williams method, Tukey method, Nemenyi test, Tukey-Kramer method, Games/Howell method, Duncan's new multiple range test, Student-Newman-Keuls method, etc.每种方法都有不同的特点。) ANOVA table.
配对比较法中的Scheffé's Method 由Nakaya改进的方法 Step 4: 在所有的配对中应用多重比较 找出哪一个距离是显著的(significant)。 (Fisher's PLSD method, Scheffé method, Bonferroni-Dunn test, Dunnett method, Williams method, Tukey method, Nemenyi test, Tukey-Kramer method, Games/Howell method, Duncan's new multiple range test, Student-Newman-Keuls method, etc. Each has different characteristics.) 一个简单的多重比较的示例。 Calculate a studentized yardstick 当 a difference of average > a studentized yardstick, 这个距离是有显著意义的。(the distance is significant)
配对比较法中的Scheffé's Method 由Nakaya改进的方法 Step 4: 一个简单的多重比较的示例。 (studentized yardstick) 其中 分别是Sε的一个无偏方差, 对象的数量, 受试者的数量。 is a studentized range obtained is a statistical test table for t, the degree of freedom of Sε ( ), and the significant level of φ 。 在ANOVA 表格中查看这些变量。 (See in the next slide.)
Studentized yardstick 2 3 4 5 6 7 8 9 10 12 15 20 1 18.0 27.0 32.8 37.1 40.4 43.1 45.4 47.4 49.1 52.0 55.4 59.6 6.09 8.30 9.80 10.9 11.7 12.4 13.0 13.5 14.0 14.7 15.7 16.8 4.50 5.91 6.82 7.50 8.04 8.48 8.85 9.18 9.46 9.95 10.5 11.2 3.93 5.04 5.76 6.29 6.71 7.05 7.35 7.60 7.83 8.21 8.66 9.23 3.64 4.60 5.22 5.67 6.03 6.33 6.58 6.80 6.99 7.32 7.72 3.46 4.34 4.90 5.31 5.63 5.89 6.12 6.32 6.49 6.79 7.14 7.59 3.34 4.16 4.68 5.06 5.36 5.61 5.82 6.00 6.16 6.43 6.76 7.17 3.26 4.04 4.53 4.89 5.17 5.40 5.60 5.77 5.92 6.18 6.48 6.87 3.20 3.95 4.42 4.76 5.02 5.24 5.43 5.74 5.98 6.28 6.64 3.15 3.88 4.33 4.65 4.91 5.12 5.30 5.46 5.83 6.11 6.47 11 3.11 3.82 4.26 4.57 4.82 5.03 5.20 5.35 5.49 5.71 5.99 3.08 3.77 4.20 4.51 4.75 4.95 5.27 5.62 5.88 6.21 13 3.06 3.73 4.15 4.45 4.69 4.88 5.05 5.19 5.32 5.53 5.79 14 3.03 3.70 4.11 4.41 4.67 4.83 4.99 5.10 5.25 5.72 3.01 3.67 4.08 4.37 4.78 4.94 5.08 5.66 5.96 16 3.00 3.65 4.05 4.56 4.74 5.15 5.59 5.90 17 2.98 3.63 4.02 4.30 4.52 4.71 4.86 5.11 5.55 5.84 18 2.97 3.61 4.00 4.28 4.49 4.96 5.07 5.50 19 2.96 3.59 3.98 4.25 4.47 4.79 4.92 5.23 5.75 2.95 3.58 3.96 4.23 4.62 4.77 5.01 24 2.92 3.53 3.90 4.17 4.54 4.81 30 2.89 3.49 3.84 4.10 4.46 4.72 5.00 5.21 5.48 40 2.86 3.44 3.79 4.39 4.63 60 2.83 3.40 3.74 4.31 4.44 4.55 120 2.80 3.36 3.69 3.92 4.24 4.36 4.48 5.13 ∞ 2.77 3.31 3.86 4.03 4.29 4.80
总结 + 1. 总结在哪种情况下我们应该用哪种统计检验(statistical test )方法。 2 组 n 组 (n > 2) 数据 分布 ・unpaired t -test ・符号检验 ・Wilcoxon配对符号秩次检验 ・Friedman test ・Kruskal-Wallis test ・ one-way ANOVA (单因子方差分析) ・ two-way ANOVA (双因子方差分析) (不服从正态分布) 单因子 双因子 有参数检验 无参数检验 (服从正态分布) unpaired (独立) paired (相关) ・paired t -test ・Mann-Whitney U-test ANOVA (方差分析) + 用于人类主观(Human Subjective)测试的配对比较法中的Scheffé‘s method 2. 通过正确使用统计检验来验证实验的有效性。