第五單元:資料之圖表展示 授課教師:國立臺灣大學數學系 陳 宏 教授 統計與生活 第五單元:資料之圖表展示 授課教師:國立臺灣大學數學系 陳 宏 教授 【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」臺灣3.0版授權釋出】
第貳部 數據整理 3/22 資料之圖表展示 (第4章) 3/29 資料之敘述、常態分布 (第5章) 4/12 兩個變數之關係:如何展示 (第6章) 4/19 期中考
收集資料之後… 如何將大量資料化繁為簡? 用圖形或表格的方式呈現,可以迅速了解資料的分布狀況或訊息 依類別資料和數量資料之分而用不同的圖表呈現
本章要學習… 為何要整理資料? 質性資料及量化資料 分布表 (4.2) 圓餅圖、長條圖 (4.3-4.4) 直方圖、莖葉圖、線圖 (4.5-4.7) 圖表的誤用 (4.8)
大學數學科學領域延攬新進教師之展望
Plans to stay in United States 臺灣留學生之比例由43.6%升高為74.4%
Mathematics/computer sciences Doctorate recipients 1990-93 1992-95 1994-97 1996-99 1998-01 2000-03 2002-05 S&E 2004 485 421 280 S&E 2006 484 352 194 S&E 2008 429 282 161
資料的型態 質性資料(qualitative data):又稱類別資料(categorical data),是依照性質或程度的不同區分計數而得的資料,用來描述類別變數。例如:顏色、性別、教育程度 可使用圓餅圖及長條圖來呈現 量化資料(quantitative data):又稱數量資料,依照計數或測量而得的量數,來描述數量變數。例如:身高、體重、成績、溫度
類別資料-製作分布表(1) 授課教師想了解大部分的學生來自於哪個年級 將收集來的資料整理成分布表(distribution table) 首先算出各年級的次數(frequency)和比例 (proportion),在這個例子中,次數就是指各年級的 人數 接著可繪製如下的表:
分布表:修課學生年級 年級 人數 百分比 一年級 29 25.4 二年級 37 32.5 三年級 27 23.7 四年級 21 18.4 合計 114 100 從表格可知道,來自二年級的學生人數最多(37人),佔全部年級人數的百分比為(37/114)×100% = 32.5% 老師為何要看這組資料?
類別資料-製作分布表(2) 授課教師想了解修這門課的學生,大部分是來自於哪個學院,以利選擇適當的例子 首先計算出每個學院的人數及比例 接著整理成分布表
分布表:修課學生學院 學院 人數 百分比 文學院 49 43.0 理學院 4 3.5 社會科學院 10 8.8 工學院 8 7.0 電資學院 生物資源暨農學院 9 7.9 獸醫專業學院 1 0.9 管理學院 法律學院 22 19.3 生命科學院 3 2.6 合計 114 100 從表格可以知道,填寫問卷學生的學院中,以文學院的人數最多(49 人),佔全部學院人數的百分比是(49/114)×100% = 43.0%
類別資料-製作兩種分類的分布表(3) 同時知道填寫問卷學生的性別與血型,是不是也可以計算出填寫問卷學生性別的百分比或血型的百分比。 性別\血型 A型 B型 AB型 O型 小計 男生 17 14 21 52 女生 10 13 7 32 62 合計 27 53 114
分布表:修課學生性別與血型 由上頁的表可以看出,女生的人數較多,共有 10+13+7+32=62人,佔全部性別人數的百分比是 (62/114)×100%=54.4%,而男生的人數,共有 17+14+0+21=52人,佔全部性別人數的百分比是 (52/114)×100%=45.6% 以血型而言,O型的人數最多,共有21+32=53人,佔全 部血型人數的百分比是(53/114)×100%= 46.5%
數量資料-製作分布表(1) 授課教師想要了解學生第一學期每週平均讀書時間。 首先將資料分成幾個組別。 接著計算出每一組別的次數。 最後整理成分布表
分布表:修課學生每週讀書時間 每週讀書(小時) 次數 百分比 0~9 40 35.1 10~19 49 43.0 20~29 15 13.2 30~39 3 2.6 40~49 5 4.4 50~59 2 1.7 合計 114 100 從表格可以知道,第一學期每週平均讀書時間,10∼19 小時的人數最多(49人),佔全部人數的百分比是(49/114)×100%=43.0%
數量資料-製作分布表(2) 授課教師也想了解這門課的學生,第一學期 每週平均上網時間。 將資料分成幾個組別。 然後計算出每個組別的次數。
分布表:修課學生每週上網時間 每週上網(小時) 次數 百分比 0~9 10 8.8 10~19 37 32.5 20~29 33 28.9 30~39 17 14.9 40~49 9 7.9 50~59 2 1.7 60以上 6 5.3 合計 114 100 最後整理成分布表。第一學期每週平均上網時間,10∼19 小時最多(37 人),佔全部人數的百分比是(37/114)×100%=32.5%
圖形的呈現 將資料整理成表格已經比文字表示簡單清楚,但要更清楚的展現資料的性質時,需要用到圖形來表示 表示類別資料的圖形:圓餅圖、長條圖 表示數量資料的圖形:直方圖、莖葉圖、線圖
圓餅圖 使用圓餅圖來表示類別資料。 先計算出每一類別的比例。 以圓形的360°為百分之百,而各類所占的百分比即為扇形 的面積。 以圓形的360°為百分之百,而各類所占的百分比即為扇形 的面積。 以面積大小表達各類別的相對差異。 以學生年級和學院別為例
圓餅圖
圓餅圖:修課學生年級 由圖形可以看出班級修課人數以二年級為最多。
圓餅圖:修課學生學院 由圖形可以看班級的修課院別以文學院人數為最多。
長條圖 由數個長條狀所構成,每一長條所代表的是該類別出現的 相對次數或比例 以長條高度表達各類別的相對差異 由數個長條狀所構成,每一長條所代表的是該類別出現的 相對次數或比例 以長條高度表達各類別的相對差異 這些長條是分開的,用以凸顯不同的類別各組間之大小關 係
長條圖:修課學生年級 由圖形可看出修課學生年級以二年級學生人數最多。
長條圖:修課學生學院 從圖形中就可以看出, 修課學生學院別最多人 數的是文學院的學生。
直方圖 表示數量資料。 以矩形高度表達各類別的相對差異。 與長條圖非常類似,但直方圖的矩形相鄰以彼此為界,相鄰組別的矩形間並無間隔。 直方圖適用於數量變數並且分組的資料,而長條圖只適用於類別變數的資料。
直方圖:第一學期每週讀書時間 從直方圖可以看出,學生第一學期讀書時間集中在10-20小時之間。
直方圖:第一學期每週上網時間 由圖形可以看出學生第一學期每週上網時間集中於15- 25小時之間
長條圖 VS. 直方圖 長條圖:適用類別變數的資料、相鄰組別的矩形間有間隔 直方圖:適用連續變數的資料、相鄰組別的矩形間無間隔
莖葉圖 呈現數值資料,但資料數較少。 將每一觀察值分成兩部分,一部分屬於莖,其餘的部分屬於葉。 可以洞悉資料的集中與分散情形,同時顯示資料的順序及形狀,提供與直方圖相同的資訊。
莖葉圖的展示
莖葉圖:第一學期每週讀書時間 我們從圖形的訊息可以知道,10∼19 小時的人數最多,共有49 人。第一學期每週平均讀書時間最長為56 小時,最短為0 小時。
莖葉圖:第一學期每週上網時間 從圖形的訊息可以知道,10∼19 小時的人數最多,共有37 人,每週平均上網時間最長為110 小時,最短為3 小時。
莖葉圖的作法(第一步)
莖葉圖的作法(第二步)
莖葉圖 VS. 直方圖 莖葉圖:當資料的個數不多時使用莖葉圖 直方圖:當資料數量很龐大時使用直方圖,因為 每個莖有太多的葉子,莖葉圖就不適用
線圖 表示變數隨著時間變動所產生出的變化 容易看出整個圖形的趨勢 描述某個變數在不同的時間所測量出來的結果
線圖應用(1) 想了解臺灣近幾年失業率的變化。 即探討失業率與時間的關係,可使用線圖。
線圖:1995年到2009年失業率
線圖:1995年到2009年失業率 由圖形可知1995至2000年之間失業率大概維持在3%以下 2001年,失業率突然升高到4.57%,2002上升至5.17%。 隨後有逐年下降的趨勢,2005至2007年之間失業率大概維持在4%左右 一直到2008年才開始有上升的趨勢,2009年又迅速上升至5.4%
線圖應用(2) 癌症已經成為臺灣十大死因排名第一,可以說是國人健康的最大威脅。 想知道臺灣最近二十年的癌症死亡人數與時間的變化是如何呢?
線圖:1986年到2007年癌症死亡人數
線圖:1986年到2007年癌症死亡人數 在1986年臺灣癌症死亡人數大概有一萬六千多人,每年癌 症死亡人數有逐漸上升的趨勢 在1986年臺灣癌症死亡人數大概有一萬六千多人,每年癌 症死亡人數有逐漸上升的趨勢 到了1992年癌症死亡人數已經突破兩萬人 在2001年癌症死亡人數增加將近兩倍,大概有三萬三千人 死於癌症,到了2007年癌症死亡人數甚至突破四萬人
圖表的誤用 水能載舟亦能覆舟。圖形用的好可以幫助我們了解資料,但經過人為的操縱亦有可能讓我們對資料產生誤解
修課學生年級的平均成績(正常) 四個年級的期中考成績表現差異不大
修課學生年級的平均成績(調整過 )
修課學生年級的平均成績(調整過 ) 圖形調整後乍看之下,四年級的期中考平均成績出色許多 注意圖形縱軸的刻度,刻度是從77 開始算的,而不是從零開始算的 改變刻度起點容易讓人產生誤解
7-ELEVEN的店數成長 想了解統一超商店數增加的速度 在1992 年店數只有七百多間,到了1999 年已經突破兩千間,在2005 年甚至超過四千間
7-ELEVEN的店數成長(正常)
象形圖(pictogram) 是長條圖的變形,通常具有吸引目光的效果,但是常常會讓人誤導,造成和實際上有所差距
象形圖(pictogram) 長條圖的變形,通常具有吸引目光的效果 但這種視覺效果,會有誇大的現象,造成和實際上有所差距,擴大效果 因此在使用圖形的時候,要小心謹慎,盡量避免使用容易讓人造成誤解的圖形
象形圖:便利商店店數 看面積還是看高度?
象形圖:便利商店店數 想了解2005 年臺灣便利商店的數量 只從圖形大小來判斷,我們有可能會覺得統一超商和全家的店數差距大約四倍 但事實上統一超商和全家的店數差距大約兩倍
象形圖:便利商店店數 清楚的標示及說明:變數為何?單位為何?資料來源 讓數據顯目:這不是藝術創作 要注意眼睛到底補捉到什麼:避免用象形圖及很炫的效果
7-ELEVEN的店數成長(正常)
如何改造此圖? 7-ELEVEN店數成長 改用圖形取代長條狀,在1999年的店數大約兩千多間,在2005 的店數大約四千多間,這兩年7-ELEVEN 的店數大概差了兩倍 如何改造圖形,會使人覺得這兩年7-ELEVEN 的店數差距是四倍,造成跟實際上有所出入
總結 資料型態 質性資料、量化資料 分布表 表示類別資料的圖形 圓餅圖、長條圖 表示數量資料的圖形 直方圖、莖葉圖、線圖
版權聲明 頁碼 作品 版權標示 作者 / 來源 5 National Science Board. 2008. Science and Engineering Indicators 2008. Two volumes. Arlington, VA: National Science Foundation (volume 1, NSB 08-01; volume 2, NSB 08-01A)Volume1, p.141, Table 2-9。 依據著作權法第 46、52、65 條合理使用。 6 National Science Board. 2008. Science and Engineering Indicators 2008. Two volumes. Arlington, VA: National Science Foundation (volume 1, NSB 08-01; volume 2, NSB 08-01A) Volume2, p.129, Appendix table 2-33 。 7 國立臺灣大學 數學系 陳 宏 教授。 10 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 73, 國立臺灣大學出版中心,2009 年初版。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 12
13 16 18 21 22 頁碼 作品 版權標示 作者 / 來源 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 74, 國立臺灣大學出版中心,2009 年初版。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 16 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 75, 18 21 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 77, 22 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 76,
23 25 26 28 29 頁碼 作品 版權標示 作者 / 來源 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁74, 國立臺灣大學出版中心,2009年初版。 由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。 25 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁75, 26 28 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁77, 29 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁76,
32 33 34 35 36 頁碼 作品 版權標示 作者 / 來源 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 83, 國立臺灣大學出版中心,2009 年初版。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 33 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 80, 34 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 81, 35 36
40 43 46 47 頁碼 作品 版權標示 作者 / 來源 50、 56 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 84, 國立臺灣大學出版中心,2009 年初版。 由所有權人國立臺灣大學出版中心授權,您如需利用本作品, 請另行向權利人取得授權。 43 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 46 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 85, 47 50、 56 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 87,
53 頁碼 作品 版權標示 作者 / 來源 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 87, 國立臺灣大學出版中心,2009 年初版。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。