世代之爭爭什麼 ? 談談如何從調查資料挖掘出 豐厚的意義 劉正山 中山大學政治學研究所 副教授 Director, Smilepoll.tw @台灣資料科學協會年會 2016.7.17
1 話說… 八個月前的自我對話
大數據分析的探索精神, 小數據的擁有者沒有嗎? (of course yes; we have it.) 做實證的社會科學家,理應也能做做不同於描述和假設檢定的事。
調查資料正在貶值中 ?! 一般市場與民意調查只被拿來做簡單描述分析; 在學術界則被拿來作理論與假設的檢定。 一般市場與民意調查只被拿來做簡單描述分析; 在學術界則被拿來作理論與假設的檢定。 隨機抽樣的樣本,獲取成本很高(面訪>電訪); 商業上的焦點團體與立意抽樣等方法,因為樣 本少而和大數據相形失色。 問卷題(多是類別型變數)看似只能做做描述 統計或兩兩之間的相關分析;技術含金量有限。
March 2016. Google watched how people use a phone in a van for over an hour at a time. Goal: complete interviewing 500 people.
Google 拿質性訪問來確認大數據中看見的樣貌。但這並 不算是正視問卷調查資料用於意義開發的潛力。 Well… Google 拿質性訪問來確認大數據中看見的樣貌。但這並 不算是正視問卷調查資料用於意義開發的潛力。
只要問了好問題,並運用探索工具mca, 民調市調資料與大數據同樣珍貴。 我們需要有能讓資料分析者發從調查資料中掘出消費者、選民的 價值和偏好組合的探索工具。
2 MCA 方法帶來的新視野
多重對應分析 Multiple Correspondence Analysis (MCA) 早在二戰前就出現在歐洲,但其潛力目前尚未 受到社會科學的重視。2000左右介紹進美國之 後,已經應用在語言學的研究中,成為該學門 中的重要研究方法(Glynn, et al., 2014; Glynn, & Robinson, 2014)。商管學門也已在使用, 但並未在國內形成氣候。 最近五年則因為R語言及套件的開發,使這個由 法國學者為開發主力的方法經由專書及多個套 件的出版得以在全球資料分析者之間傳開。
研究問題: 民眾看似多重的民族、國家、政黨認同 之間,能夠說清楚它們之間的關聯嗎? 我們知道世代之間的政治傾向上不同, 到底怎麼呈現出來才能解答那些是真相, 那些是誤解?
拿國內權威資料來分析 中央研究院社會學研究所執行收集的面訪資料: 傅仰止、章英華、杜素豪、廖培珊主持的「台 灣社會變遷基本調查計畫第六期第四次:國家 認同組」。 面訪調查於2013年9月22日至12月10日執行, 於2014年2月釋出,N=1,952。[有代表性!] 這筆資料包含了當前學界所認可的國家認同測 量題,如「台灣人/中國人認同」、兩岸關係偏 好,亦包含了民族認同題組、條件統獨題組等。
第一次,民調資料可以用這個面貌呈現
在此例中被分析的問卷題(共30題) 如果有人問您的祖國是哪裡,請問您會怎麼回答? 請問您覺得下列這些歷史事件是不是很重要,要 讓下一代永遠記得? 目前社會上有人會說自己是台灣人,有人會說自 己是中國人,也有人會說兩者都是。請問您認為 自己是台灣人、中國人還是兩者都是 對於未來台灣與中國大陸的關係,有人主張台灣 獨立,也有人主張與大陸統一。請問您比較贊成 哪一種主張?
> library(FactoMineR) > library(factoextra) > library(dplyr) > install.packages("FactoMineR") > install.packages("devtools") > devtools::install_github("kassambara/factoextra") > library(FactoMineR) > library(factoextra) > library(dplyr)
> load("tscs2013.rda") > tscs2013forMCA <- select(tscs2013, + c(# 核心變數 (core vars) + gen.1, gen.2, gen.3, gen.4, gen.5, # 世代 + v15r, #「祖國」是哪裡 + v54ar, v54br, v54cr, v54dr,#最有承傳價值的歷史事件 + v57r, #台灣人/既是台灣人也是中國人/其他 + v61r, # 統獨立場 + v76r, # 國號 + v89ar, v89br, v89cr, v89dr, + v89er, v89fr, v89gr, v89hr, v89ir, # 民族-國家 + + # quantatative supplementary vars + v58r, # 自認台灣人程度 + v59r, # 自認中國人程度 + # v84ar, # 去大陸次數(1-6) + + #qualitative supplementary vars + sex, + college, # 大專教育程度 + camp, # 政黨傾向 + v71ar, # 中華民族包含台灣原住民 + v71er, # 中華民族包含台灣居民 + v75r # 國家領土範圍 + ))
> # 將無效值剔除(list-wise deletion)。 > tscs2013forMCA. nona <- na > # 將無效值剔除(list-wise deletion)。 > tscs2013forMCA.nona <- na.omit(tscs2013forMCA) > nrow(tscs2013forMCA.nona) [1] 1496 > names(tscs2013forMCA.nona) > res<-MCA(tscs2013forMCA.nona, ncp=10, quanti.sup=c(23,24), quali.sup=25: 30, graph= F) #ncp 10個維次
> fviz_screeplot(res, ncp=10)
將其中最重要變數類別(選項)的組合挑出: > plot(res, axes=c(1, 2), new.plot=TRUE, col.var=“red”, col.ind=“black”, col.ind.sup=“black”, col.quali.sup=“darkgreen”, col.quanti.sup=“blue”, label=c(“var”), cex=0.7, selectMod = “cos2 30”, #共52個選項組合 invisible=c(“ind”, “quali.sup”), xlim=c(-1.2,1.2), ylim=c(-0.6,2), autoLab = “yes”, # title=“Top 30 Critical Elements on the MCA Factor Map”) title="")
顯示最重要變數的組合
注意:構成第二維次(y軸)的因素 第二維次的代表題:「請問您覺得下列這些歷史事 件是不是很重要,要讓下一代永遠記得?」 「推翻滿清,建立中華民國」(v54c) 與 「八年對日抗戰勝利」(v54d) 一組; 「二二八事件」(v54ar)與 「美麗島事件、黨外民主運動」(v54br)一組
> # 輔助連續型變數的影響值 > plot(res, axes=c(1, 2), new.plot=TRUE, choix="quanti.sup", + col.quanti.sup="blue", label=c("quanti.sup"), + title="Quantitative Supplementary Variables")
受訪者在兩個維度的分佈 > plot(res, axes=c(1, 2), new.plot=TRUE, choix=“ind”, + col.var=“red”, col.quali.sup=“darkgreen”, + label=c(“var”), + xlim=c(-1,1), + selectMod ="cos2 15", select="cos2 1", + invisible=c("quali.sup", "var"), + )
第一軸線的代表概念:民族認同(中華民族或台灣民族) 第二軸線的代表概念:國家正當性(接受中華民國與否) 接下來,為概念命名 第一軸線的代表概念:民族認同(中華民族或台灣民族) 第二軸線的代表概念:國家正當性(接受中華民國與否)
1
位於第一象限的民眾特徵: 第二世代 政黨傾向為藍營 [不在第四象限?] 不認為「二二八事件」是重要歷史事件 不認為「美麗島事件、黨外民主運動」是重要 歷史事件 無大專教育程度 男性
2
位於第二象限的民眾特徵: 政黨傾向為綠營以及「中間/不表態/其他」 認為自己的祖國是台灣(不是中華民國、中國或其他) 認為自己是台灣人(不是中國人亦非都是) 認為國土不包含中國大陸 認為國家現在名字應該叫作台灣 不同意「中華民族本來就包含很多族群,不應分離」 不同意「台灣人的祖先就是黃帝,我們要繼承這樣的血統與歷史」 不同意「作為華夏子孫,我們在國際上應該盡力將中華文化發揚光大」 不同意「不管台灣發生任何問題,我都一定會挺它到底,絕對不會想要 移民到國外」
3
位於第三象限的民眾特徵: 第五世代 [不在第二象限] 有大專學歷 「維持現狀,以後走向獨立」 如果台灣獨立不會引起戰爭,就應該宣佈獨立 二二八事件、美麗島事件及黨外民主運動算是 歷史上的重要、值得永遠被記得的事件 如果大陸在經濟、社會、政治方面的發展跟台 灣差不多,兩岸也不應該統一
4
位於第四象限的民眾特徵: 自己是台灣人也是中國人 國家現在叫作中華民國比較適合 中華民國是祖國 兩岸維持現狀,以後走向統一 「推翻滿清,建立中華民國」與「八年對日抗戰勝利」很重要, 要讓下一代永遠記得。 「台灣人的祖先就是黃帝,我們要繼承這樣的血統與歷史」 「中華民族本來就包含很多族群,不應該分離」 「不管台灣發生任何問題,我都一定會挺它到底,絕對不會想要 移民到國外」 「作為華夏子孫,我們在國際上應該盡力將中華文化發揚光大」 即使台灣獨立不會引起戰爭,也不該宣佈獨立。
我們來點出不同世代在兩個維度上的分佈差異 世代之爭爭什麼? 我們來點出不同世代在兩個維度上的分佈差異
世代分佈的差異 > library(factoextra) > plotellipses(res, keepvar = c(“gen.1”,“gen.2”, "gen.3","gen.4","gen.5"))
4 5 1 2 3
你能看見什麼? 從人數的分佈來看(桃紅色的點) 從每個世代的所在位置來看 這些點所代表的都是每個選民不太容易移動的 認同與立場。 不同的認同結構是造成選民、媒體、及政治人 物所說出來的話差異的原因。
小數據也能預測 & 協助決策 若能解讀這張圖,你就看得出 2014年太陽花學運的社會氣氛、 2014年縣市長選舉、 甚至是2016年選民大致在想什麼、選票在那裡, 以及為什麼政黨推出的競選策略。
你知道我在暗示什麼嗎?
在看懂這個世代差異圖之前,你或許會跟著一起檢討這廣告;但現在的你是否多了一些了然? 選民在那裡,競選團隊就用他們的語言來呼喚他們…可不一定是你。 http://news.ltn.com.tw/news/politics/breakingnews/1559909
再看一眼,猜猜看: 什麼是最能爭取到多數選民接受的政治語言?
維‧持‧現‧狀
你說 「這去年我就知道了,沒什麼了不起」 以上的所有資訊,都是用2013年的資料就可以挖掘出來的的意義哦。 若我們2016年再收集一次資料,再來分析一次,你又會看見什麼?要不要一 起來解答「太平”礁“事件對台灣民心的衝擊」呢?
那麼問難一點的題目,我問: 「這些多數選民,認同什麼?」 A: 台灣人的中華民國 + 中國人的中華民國。 要如何團結(或分裂)台灣民眾,方法和策略已經浮現。
第二世代已開始懷疑他們曾經認定的中華民國,而年輕世代(第五世代以後)已重新定義中華民國。 用傳統民調分析方法,要看出這件事可不容易啊。
現在,若我們能夠將這整套MCA方法用 於瞭解其他民眾的行為… 舉一反三 現在,若我們能夠將這整套MCA方法用 於瞭解其他民眾的行為…
那我們就發(現新大陸)了
MCA最特別的地方 讓問卷題的分析可以像因素分析一樣,選項之間的關係(不只有 題目之間的關係!)可以重新整併出樣貌。
運用MCA於研究、行銷、服務 在更短時間內掌握民眾的行為圖像; 發掘出資料背後更豐富的意義 若大數據分析或大小數據一起來,如虎添翼。
Let’s think about this approach of mixed mode research, again.
3 重新看待民調市調資料的價值
新一代的「厚」資料收集流程 一:以探索的角度設計問卷 [關鍵 & 最難] 二:收集資料(面訪、電話、網路) 三:描述資料 四:分析、視覺化 & 判讀(說故事)[新!]
動機 市調與行銷的資料科學家,除了「描述」和「解釋」,現在開始, 可以加上「探索」
發問 將幾想知道的面向轉為題組,是的,聽起來簡單。 but 你真的是那個能夠指出國王新衣的好奇寶寶嗎?
分析 用MCA發掘關聯,你從小數據看到的樣貌,跟使用大數據分析所 看見的,會產生高度互補效果。
詮釋 盯著客觀的資料分析結果,把你看見的故事和意義說出來。 這必需要回到你對於自己問的問題瞭解的程度,以及自己專業領 域訓練的視野。
結語: Let’s Think again: data Mining for what?
Patterns & Meaning! 小數據的意義探勘可以是資料科學重要的一環。它將是社科 人及民調/市調專業者踏入資料科學領域的彩虹橋,也將是資 料科學吸納更多調查及傳播專業人才的磁石。
當資料取得及技術變得平民化,發掘意義的能力和訓練,將變得與技術能力的訓練一樣重要。 只是,這種抽取出意義的能力往往是經歷過專業訓練以及對產業及世 界的觀察與思考(以及人生起伏)之後才累積出的能力。基本上可以 透過閱讀及學術訓練取得。高階經理人尤其需要這種訓練與能力。
要注意的是,除了呈現分析結果這個步驟之外,整個研究過程非常主觀。而這正是大數據分析的知識論立場,無可厚非。 因此,若要讓開拓性的研究途徑成為資料科學的一環,資料科學家必須 保有科學家open to challenge的精神,虛心地確保每一個分析環節及結 果詮釋都透明,並接受社群的檢驗及論辯。換言之,本講所呈現的,還 未達到所謂的「真相」或「事實」。真相是逐漸被「逼進」而顯示出來 的。沒有人能一步到位,或是一次就宣稱拿到了聖杯。
資料科學中的厚資料視野 FB: thickdatabarbor/資料吼 Thick Data (approach) 資料科學中的厚資料視野 FB: thickdatabarbor/資料吼
野人獻曝 歡迎見笑 & 拜託指教 I do hope this thick data approach and the application of MCA are more than just interesting to you. 非常感謝全球R社群的奉獻,以及國內資料科學社群的努力! 劉正山 csliu@mail.nsysu.edu.tw
參考資料 Blasius, J., & Greenacre, M. (Eds.). (2014). Visualization and Verbalization of Data. CRC Press. Husson, F., Le, S., & Pages, J. (2010). Exploratory Multivariate Analysis by Example Using R (1 edition). CRC Press. Pagès, J. (2014). Multiple Factor Analysis by Example Using R (1 edition). Boca Raton: Chapman and Hall/CRC. Pasek, J., Jang, S. M., Cobb, C. L., Dennis, J. M., & Disogra, C. (2014). Can marketing data aid survey research? Examining accuracy and completeness in consumer-file data. Public Opinion Quarterly, 78(4), 889–916. Roux, B. L., & Rouanet, H. (2009). Multiple Correspondence Analysis. SAGE Publications.
資料檔及講義 範例資料檔(rda)下載:http://jmp.sh/pvLZWYE
同場加映 如何動手收集價值型的厚資料
傳統的長條圖和圓餅圖
透過問受訪者更深刻的問題,我們可以從調查資料中發掘更多的可能樣貌。 一般民調市調會偏重於詢問行為面及偏好的問題,但我們還可以 問出更多關於價值觀的問題。
你有想過,台灣民眾對於「獨立」的定義有很多種,而且很可能沒有什麼共識嗎?
看懂了之後, 你的發問可以天馬行空繼續下去 你會發現,問卷調查其實是可以讓你打造出專屬於自己研 究領域厚資料礦脈的神器。
打造自己的社群網調平台的好處 資料科學家從資料聆聽者(被動爬梳挖來或買 來的數據)轉換為資料創造者(主動收集到被 研究對象價值和偏好)。 降低資料雜訊及更快速的決策。 形成社群後可以創造定群追蹤樣本(panel data),產生變數的合併帶來的巨大價值。 先以小數據作初探(pilot stud),之後再啟動 隨機電話抽樣,將大幅增加推論力度。 初探階段便可以進行隨機分派實驗(A/A前測、 A/B對照),找出意義和印證想法。
我們的政治科學+資訊管理+行銷管理團隊 致力於發問及厚資料意義探勘的訓練及應用 微笑小熊調查小棧 [ smilepoll.tw ] 我們的政治科學+資訊管理+行銷管理團隊 致力於發問及厚資料意義探勘的訓練及應用 ~歡迎學術, 產學及官學合作 & 歡迎跨領域新星申請中山政治學研究所~ littlesmilebear@gmail.com