第十九章 聯合分析、多元尺度方法 和集群分析 第十九章 聯合分析、多元尺度方法 和集群分析 19-1 聯合分析(Conjoint Analysis) 19-2 多元尺度方法 19-3 集群分析
19-1 聯合分析 (Conjoint Analysis) 19-1-1 聯合分析介紹 聯合分析適用於依變數是計量或順序,自變數是非計量,如下: Y = X1+X2+X3+….+Xk (計量或非計量) (非計量, 例如: 名目) 聯合分析是分析因子的效果,其目的是將受測者對受測體的整體評價予以分解,藉由整體評價求出受測體因子的效用。聯合分析特別適用於了解客戶的需求,針對新的產品或服務,我們可以將新的產品或服務分解成各項組合,例如:手機分解成 – 品牌(2種)、形狀(2種)和價格(3種),如此一來,總共有2*2*3=12種組合,客戶設計對這12種組合給多分數,最後再依據客戶的整體評價以求出各個組合的效用,以了解客戶對於新產品的喜好。 研究人員必須要有能力敍述產品和服務的屬性或特性(我們稱之為 factor),也要能確認屬性或特性的質(我們稱之為 level),準備給受測者填答的組合 (由factor 和level組合而成),我們稱之為treatment或stimulus,受測者回答物體(組合)的價值,包含有形的 (例如:手機功能)和無形的 (例如:品牌),我們稱之為效用 (Utility),也就是衡量整體喜好的程度,整體喜好的程度我們也稱為產品的總價值 (Total worth),而產品的總價值是由部份價值 (part-worth)加總而成。 例如: Total worth = (part-worth 1) + (part-worth 2) + …….. 也等於 Utility = (part-worth 1) + (part-worth 2) + ……..
19-1-2 聯合分析的統計假設 聯合分析使用結構化的實驗設計和自然化的模式,使得一般性的統計假設,例如:常態性 (normality),變異數相等性 (homoscedasticity),獨立性 (independence)和線性關係等,都不適用於聯合分析,簡單說,聯合分析不需要在那些統計假設下,就可以執行,並且具有一定的統計力。 雖然,聯合分析不需要一般的統計假設條件,但相對的,研究人員必須要有能力以理論來推估其研究的設計,並且能夠指定模式的一般型式 (加法模式additive model或互動模式interactive model),而這些都需要比其它多變量技術花更多的心思,才能得到較好的解釋與結果。
19-1-3 聯合分析的設計 聯合分析的設計,首重選擇聯合分析的方法,聯合分析的方法決定於物件屬性的多寡,我們整理如下: 聯合分析的設計,首重選擇聯合分析的方法,聯合分析的方法決定於物件屬性的多寡,我們整理如下: 物件屬性小於或等於6個…………….適用Choice_Based 方法 物件屬性小於或等於9個…………….適用 Traditional 方法 物件屬性小於或等於30個…………….適用 Adaptive 方法 我們分別介紹Choice_Based、Traditional、 Adaptive 方法如下 : Choice_Based 適用於屬性<= 6個的情形下,factor 和 level 的組合- stimulus是以單一的形式出現,模式的形式是用Additive (加法)和 interaction effects (交互作用效果)的模式,分析的層次是用Aggregate (整體的) Traditional 適用於屬性<= 9個的情形下,factor 和 level 的組合 – stimulus 是一個個的組合,模式是用Additive (加法) 的模式,分析的層次是用Individual (個別的),Traditional傳統式的聯合分析是使用最久,也是最常用的方法。 Adaptive Adaptive (調節式) 的方法特別適用於物件屬性多的時候,但也不可以超過30個,模式是用Adaptive (加法)的模式,分析的層次是用Individual (個別的),在一般情形下,當傳統式的方法不適用時,我們就會先考慮使用調節式的方法。
19-1-4 選擇Factors 和 Levels Factors(屬性因子)的數量會決定聯合分析方法的選擇外,更會影響統計結果的效力,若是物件屬性和值的數量很少,那麼我們就會採用全部組合方式來收集,若是物件屬性和值的數量增加時,我們無法收集全部的資料,就必須採用因子設計(factorial design)方法。 對於研究者而言,選擇Factors 和 Levels數量時,必需知道至少要產生多少個stimulus (Factor 和 Level的組合),也就是至少需要回收多少份的問卷(卡),才能代表原來的物件。 我們以Traditional 和 Adaptive 的方法為基準,計算stimuli最少所需要的數量如下: stimuli最少的數量 = factor 和 level的總組合數 – factor數 + 1
[範例] 我們有8個factors,每個factors有4個levels stimuli最少的數量 = 8 × 4 – 8 ×1 = 25 = 25 Factors的共線性問題: 當Factors有共線性的問題發生時,代表著有重複量測的問題,解決的方法是將有共線性的Factors整合成1個,或者是刪去影響力較少的factor。 Level的數量和值的問題: 在我們計算factor的重要性時,會發現愈多level的因子,重要性會偏高,因此,研究人員應該要平衡factor的level數,至於level的值,我們儘可能設定為實際值,若是要預測,也應該在實際值的±20%為佳,不可以設的太離譜,以至於估計和判斷錯誤。 物件的呈現方法 我們想要收集到優質的代表性資料,就必須考慮我們設計物件的呈現方法,是否可以以最真實的方式展示出來,在一般情形下,我們都是以文字描述的方式進行,當然,我們也可以以圖像或實際的模型來代表,重點還是在呈現的方法,盡可能地能表示出物件最真實的情形,我們常用物件的呈現方法有三種 Full-profile (整體描述), Trade – off (交換法) 和 Pairwise comparison (成對比較),分別介紹如下:
Full-Profile整體描述 整體描述是最受歡迎的方式,因為這個方式最能清楚的描述真實的物件,填答者較容易回答所問的問題,我們以手機為範例,整體描述的方式如下: 品 牌:BenQ 價 格:$7200 尺 寸:80.5*44*21 mm 重 量:90g 通話時間:150 ~ 200 分鐘 顏 色:珍珠白、氣質銀 整體描述的缺點在於整體描述包含了所有重要的因子,當因子數目增加時,會導致填答者無法填答或必須捨去部份因子,另外,受測因子排列的順序也需要考慮,必要時,請旋轉因子,以避免因子順序影響填答的效果。
Trade-off交換法 交換法的優點在於管理容易,另外,填答者也易於回答,其缺點在於每次只能有2種屬性呈現,無法看到真實的情形,只能以文字描述,無法以圖像呈現,使用的是非計量,我們以手機為範例,trade-off的呈現方式如下: 由於trade-off的限制較多,目前的研究傾向使用成對比較(pairwise comparison)來取代trade-off的方式。
Pairwise comparison成對比較 成對比較是結合前面2種方式的方法,以整體描述2種的物件,讓填答者回答那一個物件較佳或較喜好,我們以手機為範例,成對比較的呈現方式如下:
19-1-5 評估模式的適切性: 聯合分析的評估模式可以分成 individual (個別的) 和 aggregate (總合的,整體的),我們介紹如下: Individual (個別的):個別的評估模式可以用來預測個別的正確性 Aggregate (總合的):總合的評估模式不適用於個別的預測,而是看整體的表現,例如:市佔率的多寡。 若是使用非計量的方式,請使用 superman’s rho 評估其相關,若是使用計量的方式,請使用Pearson correlation 評估其相關。 研究人員可以使用驗證用的樣本(holdout sample),來評估預測的正確性,也可以用來驗證模式的適切性。
19-1-6 結果的解釋和驗證: 聯合分析結果的解釋與評估模式一樣,分為個別的和總合的解釋,個別的解釋常用在估計部份效用值後,解釋那些屬性對整體的影響較大。總合的解釋視個別的分佈情形而定,若是總合內部的同質性高,總合可以預測個別的結果,若是同質性低,則無法預測個別的結果,但仍然可以預測整體的結果,例如:政黨的代表比例,產品的市佔率…等。結果的驗證,聯合分析結果的驗證可以分為 internal validation (內部驗證)和 external validation (外部驗證),我們分別介紹如下: 內部驗證: 包含驗證加法的(Additive) 和互動的 (interactive)模式,那一個較適合,同時,使用驗證用的樣本,計算個別或整體的正確性。 外部驗證: 需要特別注意樣本的代表性問題,外部驗證指的是聯合分析用來預測實際選擇的能力,目前,較少有研究作外部驗證。
19-1-7 聯合分析的應用 我們整理聯合分析的應用如下: 航運公司品牌權益之評估 消費者對於網站購物介面之研究 顧客對於各種基金型態的偏好 客戶對於各式保險的喜好 顧客對於3C產品的偏好分析 消費者對於行動通訊 – 手機偏好之研究 顧客對於寬頻網路服務偏好之研究 顧客對於自行車喜好之研究 民眾對於醫院偏好之研究
19-2 多元尺度方法 19-2-1 多元尺度方法介紹 多元尺度 (Multidimensional Scaling) 簡稱為MDS,是一種可以用圖形(多維度)的方式來表示資料的統計方法,我們只要收集相似的資料,距離的資料或偏好的資料;透過多元尺度的統計方法,可以將資料轉換到我們易於理解的圖形中呈現,這種圖形我們稱為知覺圖 Perceptual Map。 知覺圖 Perceptual Map的建立,可以使用多種統計技術,Churchill (1995)的文章中是使用「屬性」來區分,建立知覺圖的方式,我們整理如下:
屬性的方法是先找出各個相關的屬性,常用李克特5點或7點尺度來衡量受測者對各屬性上的回應,進而使用因分析或區別分析,將資料歸類出來。非屬性的方法是先找出受測者對整體事物的偏好或相似的資料,再使用多元尺度方法將資料的隱藏結構,用圖示的方式將偏好度或相似度歸類後,呈現出來。 多元尺度方法可以處理的資料可以分為計量 (metric) 和非計量 (nonmetric),計量部分是使用計算出的距離作為輸入的資料,非計量部份則是使用順序(次序)為輸入的資料,經過多元尺度方法的處理,都能提供計量的輸出結果,如下圖:
19-2-2 多元尺度分析之假設 多元尺度分析並不像許多的統計分析技術需要各種基本假設,而是需要研究者了解知覺上的基本要求如下: 多元尺度分析並不像許多的統計分析技術需要各種基本假設,而是需要研究者了解知覺上的基本要求如下: 受測者的回應不代表有相同的維度,由於我們讓受測者填答的是對整體的認知,至於維度的選擇和訂定則是經由多元度分析後,我們才加以選訂的。 受測者的回應不代表對單一維度有相同的重要程度,由於我們讓受測者填答的相對重要程度,因此,不同的受測者對於單一維度的回應,並不一定會有相同的重要程度,經由多元尺度的分析,我們才能檢視潛藏的關係。
19-2-3 導出知覺圖 (Perceptual Map) 導出知覺圖有2大方法,分別是以偏好(Preference) 為基礎的方法,和以相似(Similarity) 為基礎的方法。 以偏好為基礎的方法是要找出理想點(ideal points),偏好的程度由物體所在的位置與理想點的位置計算而得,分析時,可分為內部分析(internal analysis)和外部分析(external analysis),內部分析是從偏好資料中估算得到知覺圖和理想點,再計算偏好程度,使用的工具有 MDSCAL 和MDPREF,外部分析則是先估計以相似為基礎的知覺圖,使用PREMAP算出理想點的位置,再計算偏好的程度。 以相似(Similarity) 為基礎的方法,不需要找出理想點,而是以知覺構面上物體的相對位置來反應出相似的程度,使用的工具有KYST, AISCAL ,我們整理導出知覺圖的方法如下:
19-2-4 確認 Dimensions (構面)數 在評估MDS(多元尺度)模式的適配度之前,我們必須先從知覺圖中選出適當的Dimensions (維度、構面),一般最常用的方式是使用主觀評估(subjective evaluation)和壓力量測(stress measure) ,我們分別解釋如下 主觀評估:由研究人員透過知覺圖的分佈,主觀的判斷構面的數量看起來合不合理,可不可以加以適當的解釋。 壓力量測:用來表示未被MDS(多元尺度)模式所解釋,變量不均等的比率,根據Kruskal’s 的定義如下: Stress = Dij = 受測者原始資料的距離 = 從相似資料計算得到的距離 = 知覺圖的平均距離 從壓力量測的公式中,我們可以看出當相似資料 愈接近原始資料Dij時,壓力量測之值愈小,當壓力量測之值等於零時,代表相似資料等於原始資料了。
我們透過由構面和壓力量測值所形成的Scree Plot,可以較輕易地決定構面所需要的數量,如下圖: 構面數量的判定是壓力測量值和構面數量連成線的斜度下降至平滑時,就是我們要的判定值了,如下圖,構面數量增加到3時,壓力測量值下降很快,構面數量增加到4時,連線的斜度就平滑些了,因此,我們可以決定構面數量是3個或4個,這要看後續的解釋合不合理。 注意:多元尺度的構面數決定和因素分析陡坡圖的構面數決定方式 ,十分相似但是意義不同,讀者可以自行比較看看。
19-2-5 評估MDS模式的適配度 評估MDS模式的適配度常用R 指標,它用來代表原始資料符合MDS模式的程度,R 值愈高代表配適度愈好,一般的標準是達0.6就表示是達到可以接受的程度了。
19-2-6 構面的命名與解釋 在確認MDS模式是可以接受的情形下,我們開始進行構面的命名與解釋,一般常用的方式有主觀的(Subjective) 和客觀的(objective)二種,我們分別解釋如下: 1. 主觀的(Subjective):由回應者觀看知覺圖,主觀地解釋構面或由專家們來查看知覺圖,以確認可以解釋的構面 2. 客觀的(objective):客觀的方式是對每個物體收集其屬性(attribute)用來發覺那些屬性最能符合知覺圖上的位置所在,這時候,就可以用這些屬性的結合形成構面,也就是說,構面可以含蓋(代表)這些屬性,若是研究人員無法找出代表性的屬性,則需要依賴研究人員的經驗和專業來為構面命名了。
19-2-7 驗證知覺圖(Perceptual Maps) 驗證知覺圖也就是要驗證我們分析所得到的結果,常用的方式是收集2個獨立樣本或分割樣本為二個樣本,分別為2個樣本進行MDS分析,比較2個樣本的結果(知覺圖)是否有一致性,若是有一致性,就達到驗證分析的結果了。
19-2-8 多元尺度方法的應用 我們整理在學術上或實務上,多元尺度(MDS)的應用如下: 規劃產品的定位:經由多元尺度的空間定位圖,可以清楚的表示出產品的歸屬(定位),惟有了解產品的定位,才能訂定出產品的推廣方式和價格的訂定。 中醫療效評估之參考:以鼻炎為例,以語意差別量表方式,收集資料加以多元尺度方法的分析,相關的結果可以作為療效評估之參考。 調查遊客的喜好:以遊樂區為例,使用多元尺度分析,遊客對遊樂設施之偏好空間。 顧客的印象:以飯店為例,透過多元尺度分析法,可以瞭解住宿設施在顧客心中的印象,以提供改善的方向。
19-3 集群分析 19-3-1 集群分析介紹 集群分析(Cluster Analysis)無依變數或自變數之分,如同因素分析一樣,將所有的變數納入計算,集群分析的目的是基於實體的相似性,將一整組的樣本,分類 (classification) 成多個互斥 (mutual exclusive) 的小群組。
19-3-2 集群分析的統計假設 許多的數量方法都是在作統計推論的工作,也就是說,想藉由樣本推論至母體,然而,集群分析則是完全不同,集群分析不作統計論的工作,而是將觀察值的結構予以量化,也因為如此,適用於一般數量方法的統計假設,假如:線性、常態性和變異數相等性(Homoscedasticity), 都不適用於集群分析,雖然如此,集群分析的統計假設尚須考慮下列2點: 樣本的代表性:由於集群分析無法藉由樣本推論至母體,因此研究人員必須對於取得樣本是足以代表母體的。 共線性(multicollinearity)的問題:共線性發生時,具有共線性的變數會有加權的情形產生,會影響計算結果的不同,解決共線性的問題,可以使用減少變數至相同的數目或使用Mahalanobis方法計算距離,以避免共線性的影響。
19-3-3 衡量相似性 衡量相似性就是量測物件與物件之間的相似性,以作為分群的基礎,集群分析將物件間相似性高的集合在一起,以形成一個個群體。 量測物件間相似程度的方法有很多種,常用的有相關衡量 (Correlational Measures)、距離衡量 (Distance Measures)和關連衡量 (Association Measures),各細項的衡量我們整理如下圖:
相關衡量 (Correlational Measures) 相關衡量是將代表物件的變數,以矩陣方式計算出其相關係數(Correlation coefficient),相關係數代表兩兩變數的關係,高的相關係數代表有高的相似性,以下圖為例: 從圖中我們可以看出變數1和變數3有高的相似性,變數2和變數4有高的相似性。 變數之間的相關係數
距離衡量 (Distance Measures) 距離衡量有歐幾里得,城市街道和馬氏距離三種,我們簡介如下: 歐幾里得距離(Euclidean distance) 歐幾里得距離是以座標軸相減後的平方和再開根號,以下圖為例 兩點之間的距離為 √(x2-x1)²+(y2-y1)² 若是不開根號則稱為歐幾里得距離平方,若是遇到物件的變數衡量單位不同 (例如:公尺和公厘),則需要進行標準化,以避免衡量尺度(scale)造成的影響。 城市街道距離 (City-block distance) 城市街道矩離的算法是最簡單,相減後取絶對值,使用城市街道矩離是有條件 的,就是變數間不能有相關性,若是變數間有相關性,則是使用馬氏矩離。 馬氏矩離 (Mahalanobis distance D²) 馬氏矩離是歐幾里得矩離平方的延伸使用,它不只是標準化資料更加總組內共 變數矩陣(within-group covariance matrix) 以調整變數間的相互關係,特別適 用於變數有相關性時使用
關連衡量 (Association Measures) 關連衡量適用於非量化的變數,例如:名目尺度或順序尺度,常用的方式是回答的百分比來計算,統計軟體較少看到關連衡量的使用
19-3-4 集群分析的方法 集群分析的方法主要有3大類,有階層式非階層式和二階段法,我們將各細項分析的方法整理如下:
階層式的集群程序 (Hierarchical Clustering Procedures) 階層式的程序就像是在建立樹狀的結構程序,主要有2種方式凝聚法 (aggloerative methods)和分離法 (Divisive methods),凝聚法是物件從自己開始,找臨近的物件形成一群,兩個臨近的群體會結合成一個群體,最後會形成一個樹狀大群體,如下圖: 分離法剛好與凝聚法相反,它是由一個已經建構好的群體,開始分割成2個或多個群體,直到每個群體都是只有一個項目為止。
凝聚法 (agglomerative method) 凝聚法最常用來發展集群,常用的有5種方法,分別是單一連結法(Single Linkage),完全連結法(Complete Linkage),平均連結法(Average Linkage),華德法 (Ward’s method) 和中心法 (Centroid method),我們分別介紹如下: 單一連結法 (Single Linkage) 單一連結法是以最小矩離 (minimum distance) 為基礎,將最短矩離的兩個群體,連接成一群,也常稱為最近鄰居 (nearest-neighbor)法,如下圖: 我們有甲群體和乙群體,最短矩離是4到9,將4和9連在一起,形成一個大群體。 1 2 · 3 4 9 8 6 5 · 7 甲 乙
模式適合度評鑑 完全連結法(Complete Linkage) 完全連結法是每個集群在最小半徑中已經包含所有物件,在群體間以最大矩離(maximum distance) 為基準,將兩個群體連接成一個群體,形成所有物件在各自群體間有最小相似性,因為有最遠的矩離,如下圖: 我們有甲群體和乙群體,最遠矩離是1到5,將1和5連在一起,形成一個大群體。 1 2 · 3 · 4 · 9 · 8 · 6 5 · 7 甲 乙
模式適合度評鑑 平均連結法(Average Linkage) 平均連結法開始的時候和單一或完全連結法相同,不同的是,集群間矩離的選擇是以群體間所有物件的平均矩離(average distance)為準則,如下圖: 平均距離 = ( D13+D14+D23+D24) / 4
華德法 (Ward’s method) 華德法是以最小變異數為合併的準則,以形成組內平方合最小(within-cluster sum of squares is minimized); 表示群組內的相似性很高 中心法 (Centroid method) 中心法是先計算各群的中心值,也就是所有變數的平均值,再計算群體間的歐幾里距離平方,中心法的優點是取平均值,可以避免偏離值的影響。
非階層式的集群程序(Nonhierarchical Clustering Procedures) 非階層式的集群程序就不是在處理樹狀的結構,而是在處理選擇物件放到先指定好的集群種子(cluster seed),處理的方式通稱為K平均數法,K平均數法會使用下列三種方法來指定物件至其中的一個群體,這三種方法是循序基準值 (sequential threshold),平行基準值 (paralleled threshold) 和最佳化程序 (optimizing procedure),我們分別介紹如下: 循序基準值(sequential threshold) 循序基準值會先選一個集群種子(cluster seed)),以集群種子為中心,在指定值的範圍內,將物件都選擇進來,形成一個集群,接著,再選另一個集群種子,重複前面動作,以形成另一個集群,被選用過的集群種子不可以重複被選用。 平行基準值 (paralleled threshold) 平行基準值會先同時選取多個集群種子,在指定值的範圍內,將物件配置給最近的集群種子,我們可以調整基準值(threshold),以調整一個集群包含較多或較少的物件。 最佳化程序 (optimizing procedure) 最佳化程序類似循序基準值和平行基準值,差別是最佳化程序可以重新配置物件給集群,以達到最佳化的效果。
二階段法 (結合階層式和非階層式) 階層式和非階層式都各有優缺點,於是Milligan (1980) 提出結合這二種方法以得到最好的方式,首先,先使用階層式華德法或平均連結法來決定集群數,集群的中心和辨識偏離值,再用非階層式進行物件的集群處理。
19-3-5 決定集群數目 到目前為止,没有一定的標準可以決定集群的數量,我們可以理解的是集群數量增加,集群內的物件的相似性也會增加,解讀資料結構的能力下降,相反的,集群數量減少,集群內物件的相似性會減少,解讀資料的能力上升,因此,決定集群的數目端看研究者的取捨。 雖然,没有一定的標準可以決定集群的數量,但至少有些方針我們可以遵循,我們整理如下: 理論上的支持:由理論延伸到可以說明集群數目 實務上的考量:為了解決某些問題,在實務上必須決定集群的數 目才能說明實務上的現象,有時候在實務上會決定集群數的範 圍,再逐一評估最佳的集群數 集群距離突增時:使用階層式和非階層式的集群程序時,發現集 群步驟突然增加很多時,代表群體間有較大的差異,表示是可以 決定集群數的所在了。
19-3-6 解釋和驗證集群 我們在解釋每個集群的目的之一是希望能找出正確代表該集群的名稱,以說明該集群的代表意義,一般情形下,我們會檢視集群的平均值,重心,以描述該集群的表徵,再透過理論或實務上的經驗,找出合理的解釋,也可以和其它的文獻作比較,以檢視準群的分佈情形是否合理。驗證集群解,集群分析的驗證是想要確保集群解可以代表著母體,直接的方式是收集分離的樣本進行分析,以比較其結果的一致性,另一種較務實的方式則是將樣本分成兩群,各自分析再作比較結果的一致性。額外的方式則是將樣本分成兩群,使用一群來建立集群的重心,以應用到另一集,反之亦然,以達到交叉驗證的功效。
19-3-7 集群分析與區別分析之比較 集群分析與區別分析相同之處在於將觀察值分類或分組,不同之處在於集群分析對於觀察值分類或分組之特性,都是未知,而區別分析在作分析之前就已經知道要將觀察值或成幾組。
19-3-8 集群分析與因素分析之比較 集群分析與因素分析的最大不同是,集群分析經常用在「觀察值個體case」的分類或分組,而因素分析則是針對「變數」進行分類或分組。 集群分析將觀察值個體分組後,各組內的事物(特性)有高度的同質性,各組間的事物(特性)有高度的異質性,而因素分析將變數分組後,形個幾個構面,以少量的因子,就可以代表多數的變數。
19-3-9 集群分析的應用 集群分析的應用非常廣,我們整理集群分析的應用如下: 醫學:疾病的分類和疾病治療的分群。 教育:大學依教育部的分類有 研究、教學及社區等三種 類型 , 集群分析可以用來分析大學的表現指標之在哪一 類。 經濟學:多個國家經濟指標的分析。 生物學:多種魚類營養含量的分析。 行銷學:家電產品之市場區隔分析。 由此可見集群分析的方法可以廣泛的應用在各個領域