世代之爭爭什麼 ? 談談如何從調查資料挖掘出 豐厚的意義 劉正山 中山大學政治學研究所 副教授 Director, Smilepoll.tw

Slides:



Advertisements
Similar presentations
2016夏季成人主日學課程 洛麗華人基督教會 林牧師 8/14/2016
Advertisements

中三選科— 文科.
質性研究中的訪談: 教育與社會科學研究者指南
兒歌創作與實務 產學合作音樂教師  林麗青 99/11.
IFY Parents Meeting 3 December 年12月3日家长会
感恩 主题班会 初一(16)班 落叶在空中盘旋,谱写着一曲感恩的乐章,那是大树对滋养它大地的感恩;白云在蔚蓝的天空中飘荡,绘画着那一幅幅感人的画面,那是白云对哺育它的蓝天的感恩。因为感恩才会有这个多彩的社会,因为感恩才会有真挚的友情。因为感恩才让我们懂得了生命的真谛.
Presented By: 王信傑 Ricky Wang Date:2010/10/6
班級:醫管3B 組別:第二組 組員:王品媛、郭雅瑄、謝淑玲、蔡孟蔙
台北市漢口街一段85號8樓 TEL: (02) ILTEA國際英語認證 ILTEA English Proficiency Tests 符合教育部CEF採認國際標準 符合人事行政局陞任計分標準 台北市漢口街一段85號8樓 TEL: (02)
Unit 9 Have you ever been to an amusement park? Section A.
開創自己的天空 職業類科介紹 商管類.
性理釋疑(1—30題) 後學 阮章輝 學講.
學校護理專業發展數據說~ 學校護理的數據迷雲
從研究生指導經驗談 研究生如何管理論文研究
我们会赞叹生命之花的绚丽和多姿,也会歌颂生命之树的烂漫和青翠,但是生命是如此脆弱……
学风建设成果汇报 化学化工学院.
教育信息化建设诊断评价与改进一级指标体系构建
第四章 时间序列的分析 本章教学目的:①了解从数量方面研究社会经济现象发展变化过程和发展趋势是统计分析的一种重要方法;②掌握时间数列编制的基本要求;③理解和掌握水平速度两方面指标的计算及运用④理解和掌握长期趋势分析和预测的方法。 本章教学重点:现象发展的水平指标和速度指标。 本章教学难点:现象变动的趋势分析。
07 觀光行銷研究.
第五章 要怎麼收穫先那麼栽 教育發展與職業選擇
第五节 分段矿房法 分段矿房法是在矿块的垂直方向在划分成若干个分段;在每个分段上布置矿房和矿柱,可以立即回采本分段的矿柱,并同时处理采空区。
你的潜能是无限的 ——高三心理辅导.
励志班会课 高二班 班主任:彭春梅.
服務聯網地政雲.
Do you want to watch a game show?
Unit 4 I used to be afraid of the dark.
Unit 8 Section A Period 1 (1a-2d).
Unit 5.
Unit title: 买东西 - Shopping
Lecture 2 Lecture An Introduction To The HTML Language
Decision Support System (靜宜資管楊子青)
Unit 7 What’s the highest mountain in the world?
Marketing Research and Analysis
Lesson 28 How Do I Learn English?
Oxford English Module 2 Relationships 6 E-friends.
Unit 1.
Decision Support System (靜宜資管楊子青)
---八上新教材分析 青岛三十九中学 孙晓霞
Traditional Chinese Medicine
Valentine's Day 2019/4/7 广外英文1304班 陈嘉莹.
第四课会话II Would you like to play ball? 你想打球吗? CHI 101
表演课的注意事项: 1. 想象自己是八年级学生,积极举手,落落大方的展示自己的英语水平;
台中市安和國中 表演藝術教師 陳欣華 資料來源:CM企劃—電視電台廣告 (出版:朝陽堂 / 作者:電通株式會社)
生涯手冊第18頁 生涯統整面面觀.
Framing a Research Question
My favorite subject is science.
Unit 8 Our Clothes Topic1 What a nice coat! Section D 赤峰市翁牛特旗梧桐花中学 赵亚平.
第捌章 敘述研究法 一、調查研究法(survey method) 二、相關研究法(co relational studies)
BORROWING SUBTRACTION WITHIN 20
01/04 今天的学习目标 (Today’s Learning Objectives)
12/03 今天的学习目标 (Today’s Learning Objectives)
TEEN CHALLENGE Next Steps 核心价值观总结 CORE VALUES 青年挑战核心价值观
「政治學研究方法的回顧與前瞻: 科技發展與科際整合」研討會 實證主義下的探索式資料分析: 復古?創新?
李宏毅專題 Track A, B, C 的時間、地點開學前通知
M; Well, let me check again with Jane
教案編寫 簡報名稱 JUST DO IT! 簡報者 王懿柔 預期成效 展現上課成果 實際成效 完美呈現 簡報時間 20分鐘 簡報地點
立足语境,放眼词块,螺旋上升 年温州一模试卷题型分析 及相应的二轮复习对策 by Sue March 14,2013.
What motivates a man to request that his own country be bombed?
Prepare for Cozy & Lazy HOME Life
Further Development Translation 来自 创思英语 Grammar.
4. 執行行銷研究 任課教師: 行銷管理:理論解析與實務應用 曾光華著 前程文化 出版.
Views on the News 不同的观点 选自《多维阅读第11级》.
年度工作总结汇报模板 赢 在 牛魔王的结发妻子
Why do you like pandas? Section B 1a-2c.
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
官峰A+小豪宅 三面採光、通風採光極佳、 均有前後陽台、空間多元
冀教版 三年级下册 Lesson 18 The Magic Stone.
Sun-Star第六届全国青少年英语口语大赛 全国总决赛 2015年2月 北京
Climbing a Rock Wall 攀岩 选自《多维阅读第10级》.
电 商 数 据 分 析 汇报人:冯方慧 第一组:杜孟泽、李诗语、金艳平、冯方慧、张梦洁 CDA数据分析就业班
Presentation transcript:

世代之爭爭什麼 ? 談談如何從調查資料挖掘出 豐厚的意義 劉正山 中山大學政治學研究所 副教授 Director, Smilepoll.tw @台灣資料科學協會年會 2016.7.17

1 話說… 八個月前的自我對話

大數據分析的探索精神, 小數據的擁有者沒有嗎? (of course yes; we have it.) 做實證的社會科學家,理應也能做做不同於描述和假設檢定的事。

調查資料正在貶值中 ?! 一般市場與民意調查只被拿來做簡單描述分析; 在學術界則被拿來作理論與假設的檢定。 一般市場與民意調查只被拿來做簡單描述分析; 在學術界則被拿來作理論與假設的檢定。 隨機抽樣的樣本,獲取成本很高(面訪>電訪); 商業上的焦點團體與立意抽樣等方法,因為樣 本少而和大數據相形失色。 問卷題(多是類別型變數)看似只能做做描述 統計或兩兩之間的相關分析;技術含金量有限。

March 2016. Google watched how people use a phone in a van for over an hour at a time. Goal: complete interviewing 500 people.

Google 拿質性訪問來確認大數據中看見的樣貌。但這並 不算是正視問卷調查資料用於意義開發的潛力。 Well… Google 拿質性訪問來確認大數據中看見的樣貌。但這並 不算是正視問卷調查資料用於意義開發的潛力。

只要問了好問題,並運用探索工具mca, 民調市調資料與大數據同樣珍貴。 我們需要有能讓資料分析者發從調查資料中掘出消費者、選民的 價值和偏好組合的探索工具。

2 MCA 方法帶來的新視野

多重對應分析 Multiple Correspondence Analysis (MCA) 早在二戰前就出現在歐洲,但其潛力目前尚未 受到社會科學的重視。2000左右介紹進美國之 後,已經應用在語言學的研究中,成為該學門 中的重要研究方法(Glynn, et al., 2014; Glynn, & Robinson, 2014)。商管學門也已在使用, 但並未在國內形成氣候。 最近五年則因為R語言及套件的開發,使這個由 法國學者為開發主力的方法經由專書及多個套 件的出版得以在全球資料分析者之間傳開。

研究問題: 民眾看似多重的民族、國家、政黨認同 之間,能夠說清楚它們之間的關聯嗎? 我們知道世代之間的政治傾向上不同, 到底怎麼呈現出來才能解答那些是真相, 那些是誤解?

拿國內權威資料來分析 中央研究院社會學研究所執行收集的面訪資料: 傅仰止、章英華、杜素豪、廖培珊主持的「台 灣社會變遷基本調查計畫第六期第四次:國家 認同組」。 面訪調查於2013年9月22日至12月10日執行, 於2014年2月釋出,N=1,952。[有代表性!] 這筆資料包含了當前學界所認可的國家認同測 量題,如「台灣人/中國人認同」、兩岸關係偏 好,亦包含了民族認同題組、條件統獨題組等。

第一次,民調資料可以用這個面貌呈現

在此例中被分析的問卷題(共30題) 如果有人問您的祖國是哪裡,請問您會怎麼回答? 請問您覺得下列這些歷史事件是不是很重要,要 讓下一代永遠記得? 目前社會上有人會說自己是台灣人,有人會說自 己是中國人,也有人會說兩者都是。請問您認為 自己是台灣人、中國人還是兩者都是 對於未來台灣與中國大陸的關係,有人主張台灣 獨立,也有人主張與大陸統一。請問您比較贊成 哪一種主張?

> library(FactoMineR) > library(factoextra) > library(dplyr) > install.packages("FactoMineR") > install.packages("devtools") > devtools::install_github("kassambara/factoextra") > library(FactoMineR) > library(factoextra) > library(dplyr)

> load("tscs2013.rda") > tscs2013forMCA <- select(tscs2013, + c(# 核心變數 (core vars) +  gen.1, gen.2, gen.3, gen.4, gen.5, # 世代 + v15r, #「祖國」是哪裡 + v54ar, v54br, v54cr, v54dr,#最有承傳價值的歷史事件 + v57r, #台灣人/既是台灣人也是中國人/其他 +  v61r, # 統獨立場 + v76r, # 國號 + v89ar, v89br, v89cr, v89dr, +  v89er, v89fr, v89gr, v89hr, v89ir, # 民族-國家 + + # quantatative supplementary vars +  v58r, # 自認台灣人程度 +  v59r, # 自認中國人程度 + # v84ar, # 去大陸次數(1-6) +   + #qualitative supplementary vars + sex, + college, # 大專教育程度 + camp, # 政黨傾向 +  v71ar, # 中華民族包含台灣原住民 +  v71er, # 中華民族包含台灣居民 + v75r # 國家領土範圍 + ))

> # 將無效值剔除(list-wise deletion)。 > tscs2013forMCA. nona <- na > # 將無效值剔除(list-wise deletion)。 > tscs2013forMCA.nona <- na.omit(tscs2013forMCA) > nrow(tscs2013forMCA.nona) [1] 1496 > names(tscs2013forMCA.nona) > res<-MCA(tscs2013forMCA.nona, ncp=10, quanti.sup=c(23,24), quali.sup=25: 30, graph= F) #ncp 10個維次

> fviz_screeplot(res, ncp=10)

將其中最重要變數類別(選項)的組合挑出: > plot(res, axes=c(1, 2), new.plot=TRUE, col.var=“red”, col.ind=“black”, col.ind.sup=“black”, col.quali.sup=“darkgreen”, col.quanti.sup=“blue”, label=c(“var”), cex=0.7, selectMod = “cos2 30”, #共52個選項組合 invisible=c(“ind”, “quali.sup”), xlim=c(-1.2,1.2), ylim=c(-0.6,2), autoLab = “yes”, # title=“Top 30 Critical Elements on the MCA Factor Map”) title="")

顯示最重要變數的組合

注意:構成第二維次(y軸)的因素 第二維次的代表題:「請問您覺得下列這些歷史事 件是不是很重要,要讓下一代永遠記得?」 「推翻滿清,建立中華民國」(v54c) 與 「八年對日抗戰勝利」(v54d) 一組; 「二二八事件」(v54ar)與 「美麗島事件、黨外民主運動」(v54br)一組

  > # 輔助連續型變數的影響值 > plot(res, axes=c(1, 2), new.plot=TRUE, choix="quanti.sup", + col.quanti.sup="blue", label=c("quanti.sup"), + title="Quantitative Supplementary Variables")

受訪者在兩個維度的分佈 > plot(res, axes=c(1, 2), new.plot=TRUE, choix=“ind”, + col.var=“red”, col.quali.sup=“darkgreen”, + label=c(“var”), + xlim=c(-1,1), + selectMod ="cos2 15", select="cos2 1", + invisible=c("quali.sup", "var"), + )

第一軸線的代表概念:民族認同(中華民族或台灣民族) 第二軸線的代表概念:國家正當性(接受中華民國與否) 接下來,為概念命名 第一軸線的代表概念:民族認同(中華民族或台灣民族) 第二軸線的代表概念:國家正當性(接受中華民國與否)

1

位於第一象限的民眾特徵: 第二世代 政黨傾向為藍營 [不在第四象限?] 不認為「二二八事件」是重要歷史事件 不認為「美麗島事件、黨外民主運動」是重要 歷史事件 無大專教育程度 男性

2

位於第二象限的民眾特徵: 政黨傾向為綠營以及「中間/不表態/其他」 認為自己的祖國是台灣(不是中華民國、中國或其他) 認為自己是台灣人(不是中國人亦非都是) 認為國土不包含中國大陸 認為國家現在名字應該叫作台灣 不同意「中華民族本來就包含很多族群,不應分離」 不同意「台灣人的祖先就是黃帝,我們要繼承這樣的血統與歷史」 不同意「作為華夏子孫,我們在國際上應該盡力將中華文化發揚光大」 不同意「不管台灣發生任何問題,我都一定會挺它到底,絕對不會想要 移民到國外」

3

位於第三象限的民眾特徵: 第五世代 [不在第二象限] 有大專學歷 「維持現狀,以後走向獨立」 如果台灣獨立不會引起戰爭,就應該宣佈獨立 二二八事件、美麗島事件及黨外民主運動算是 歷史上的重要、值得永遠被記得的事件 如果大陸在經濟、社會、政治方面的發展跟台 灣差不多,兩岸也不應該統一

4

位於第四象限的民眾特徵: 自己是台灣人也是中國人 國家現在叫作中華民國比較適合 中華民國是祖國 兩岸維持現狀,以後走向統一 「推翻滿清,建立中華民國」與「八年對日抗戰勝利」很重要, 要讓下一代永遠記得。 「台灣人的祖先就是黃帝,我們要繼承這樣的血統與歷史」 「中華民族本來就包含很多族群,不應該分離」 「不管台灣發生任何問題,我都一定會挺它到底,絕對不會想要 移民到國外」 「作為華夏子孫,我們在國際上應該盡力將中華文化發揚光大」 即使台灣獨立不會引起戰爭,也不該宣佈獨立。

我們來點出不同世代在兩個維度上的分佈差異 世代之爭爭什麼? 我們來點出不同世代在兩個維度上的分佈差異

世代分佈的差異 > library(factoextra) > plotellipses(res, keepvar = c(“gen.1”,“gen.2”, "gen.3","gen.4","gen.5"))

4 5 1 2 3

你能看見什麼? 從人數的分佈來看(桃紅色的點) 從每個世代的所在位置來看 這些點所代表的都是每個選民不太容易移動的 認同與立場。 不同的認同結構是造成選民、媒體、及政治人 物所說出來的話差異的原因。

小數據也能預測 & 協助決策 若能解讀這張圖,你就看得出 2014年太陽花學運的社會氣氛、 2014年縣市長選舉、 甚至是2016年選民大致在想什麼、選票在那裡, 以及為什麼政黨推出的競選策略。

你知道我在暗示什麼嗎?

在看懂這個世代差異圖之前,你或許會跟著一起檢討這廣告;但現在的你是否多了一些了然? 選民在那裡,競選團隊就用他們的語言來呼喚他們…可不一定是你。 http://news.ltn.com.tw/news/politics/breakingnews/1559909

再看一眼,猜猜看: 什麼是最能爭取到多數選民接受的政治語言?

維‧持‧現‧狀

你說 「這去年我就知道了,沒什麼了不起」 以上的所有資訊,都是用2013年的資料就可以挖掘出來的的意義哦。 若我們2016年再收集一次資料,再來分析一次,你又會看見什麼?要不要一 起來解答「太平”礁“事件對台灣民心的衝擊」呢?

那麼問難一點的題目,我問: 「這些多數選民,認同什麼?」 A: 台灣人的中華民國 + 中國人的中華民國。 要如何團結(或分裂)台灣民眾,方法和策略已經浮現。

第二世代已開始懷疑他們曾經認定的中華民國,而年輕世代(第五世代以後)已重新定義中華民國。 用傳統民調分析方法,要看出這件事可不容易啊。

現在,若我們能夠將這整套MCA方法用 於瞭解其他民眾的行為… 舉一反三 現在,若我們能夠將這整套MCA方法用 於瞭解其他民眾的行為…

那我們就發(現新大陸)了 

MCA最特別的地方 讓問卷題的分析可以像因素分析一樣,選項之間的關係(不只有 題目之間的關係!)可以重新整併出樣貌。

運用MCA於研究、行銷、服務 在更短時間內掌握民眾的行為圖像; 發掘出資料背後更豐富的意義 若大數據分析或大小數據一起來,如虎添翼。

Let’s think about this approach of mixed mode research, again.

3 重新看待民調市調資料的價值

新一代的「厚」資料收集流程 一:以探索的角度設計問卷 [關鍵 & 最難] 二:收集資料(面訪、電話、網路) 三:描述資料 四:分析、視覺化 & 判讀(說故事)[新!]

動機 市調與行銷的資料科學家,除了「描述」和「解釋」,現在開始, 可以加上「探索」

發問 將幾想知道的面向轉為題組,是的,聽起來簡單。 but 你真的是那個能夠指出國王新衣的好奇寶寶嗎?

分析 用MCA發掘關聯,你從小數據看到的樣貌,跟使用大數據分析所 看見的,會產生高度互補效果。

詮釋 盯著客觀的資料分析結果,把你看見的故事和意義說出來。 這必需要回到你對於自己問的問題瞭解的程度,以及自己專業領 域訓練的視野。

結語: Let’s Think again: data Mining for what?

Patterns & Meaning! 小數據的意義探勘可以是資料科學重要的一環。它將是社科 人及民調/市調專業者踏入資料科學領域的彩虹橋,也將是資 料科學吸納更多調查及傳播專業人才的磁石。

當資料取得及技術變得平民化,發掘意義的能力和訓練,將變得與技術能力的訓練一樣重要。 只是,這種抽取出意義的能力往往是經歷過專業訓練以及對產業及世 界的觀察與思考(以及人生起伏)之後才累積出的能力。基本上可以 透過閱讀及學術訓練取得。高階經理人尤其需要這種訓練與能力。

要注意的是,除了呈現分析結果這個步驟之外,整個研究過程非常主觀。而這正是大數據分析的知識論立場,無可厚非。 因此,若要讓開拓性的研究途徑成為資料科學的一環,資料科學家必須 保有科學家open to challenge的精神,虛心地確保每一個分析環節及結 果詮釋都透明,並接受社群的檢驗及論辯。換言之,本講所呈現的,還 未達到所謂的「真相」或「事實」。真相是逐漸被「逼進」而顯示出來 的。沒有人能一步到位,或是一次就宣稱拿到了聖杯。

資料科學中的厚資料視野 FB: thickdatabarbor/資料吼 Thick Data (approach) 資料科學中的厚資料視野 FB: thickdatabarbor/資料吼

野人獻曝 歡迎見笑 & 拜託指教 I do hope this thick data approach and the application of MCA are more than just interesting to you. 非常感謝全球R社群的奉獻,以及國內資料科學社群的努力! 劉正山 csliu@mail.nsysu.edu.tw

參考資料 Blasius, J., & Greenacre, M. (Eds.). (2014). Visualization and Verbalization of Data. CRC Press. Husson, F., Le, S., & Pages, J. (2010). Exploratory Multivariate Analysis by Example Using R (1 edition). CRC Press. Pagès, J. (2014). Multiple Factor Analysis by Example Using R (1 edition). Boca Raton: Chapman and Hall/CRC. Pasek, J., Jang, S. M., Cobb, C. L., Dennis, J. M., & Disogra, C. (2014). Can marketing data aid survey research? Examining accuracy and completeness in consumer-file data. Public Opinion Quarterly, 78(4), 889–916. Roux, B. L., & Rouanet, H. (2009). Multiple Correspondence Analysis. SAGE Publications.

資料檔及講義 範例資料檔(rda)下載:http://jmp.sh/pvLZWYE

同場加映 如何動手收集價值型的厚資料

傳統的長條圖和圓餅圖

透過問受訪者更深刻的問題,我們可以從調查資料中發掘更多的可能樣貌。 一般民調市調會偏重於詢問行為面及偏好的問題,但我們還可以 問出更多關於價值觀的問題。

你有想過,台灣民眾對於「獨立」的定義有很多種,而且很可能沒有什麼共識嗎?

看懂了之後, 你的發問可以天馬行空繼續下去 你會發現,問卷調查其實是可以讓你打造出專屬於自己研 究領域厚資料礦脈的神器。

打造自己的社群網調平台的好處 資料科學家從資料聆聽者(被動爬梳挖來或買 來的數據)轉換為資料創造者(主動收集到被 研究對象價值和偏好)。 降低資料雜訊及更快速的決策。 形成社群後可以創造定群追蹤樣本(panel data),產生變數的合併帶來的巨大價值。 先以小數據作初探(pilot stud),之後再啟動 隨機電話抽樣,將大幅增加推論力度。 初探階段便可以進行隨機分派實驗(A/A前測、 A/B對照),找出意義和印證想法。

我們的政治科學+資訊管理+行銷管理團隊 致力於發問及厚資料意義探勘的訓練及應用 微笑小熊調查小棧 [ smilepoll.tw ] 我們的政治科學+資訊管理+行銷管理團隊 致力於發問及厚資料意義探勘的訓練及應用 ~歡迎學術, 產學及官學合作 & 歡迎跨領域新星申請中山政治學研究所~ littlesmilebear@gmail.com