謝寶煖 台灣大學圖書資訊學系 pnhsieh@ntu.edu.tw 2006年3月25日 量化研究與統計分析 資料檢誤 謝寶煖 台灣大學圖書資訊學系 pnhsieh@ntu.edu.tw 2006年3月25日.

Slides:



Advertisements
Similar presentations
©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
Advertisements

第一章 導 論 第一節 統計學的重要性和分類 第二節 為什麼要研究心理與教育統計學 第三節 有關變項的一些基本概念 第四節 運算符號的基本概念和使用統計 套裝軟體程式須知 第五節 本書的結構和使用建議.
第一章 導 論 第一節 統計學的重要性和分類 第二節 為什麼要研究心理與教育統計學 第三節 有關變項的一些基本概念 第四節 運算符號的基本概念和使用統計 套裝軟體程式須知 第五節 本書的結構和使用建議.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
基礎統計方法與SPSS軟體實作 台中榮總教學研究部 生統小組 劉聖文 94 年教學研究月.
單元九:單因子變異數分析.
資料整理與圖表編製 內容說明: 教師與學生互動練習,熟習資料整理 與圖表編製。.
資料整理與圖表編製 內容說明: 教師與學生互動練習,熟習資料整理與圖表編製。.
智力測驗計分與解釋 輔導老師 黃曉樺.
Ch12 資料分析.
資料概說 1.1 基本名詞介紹 1.2 資料型態 1.3 基本操作 商管研究資料分析SPSS的應用 Chapter 1 資料概說.
單元五、次數分配與資料檢查 沈瑞棋.
1 Chapter 統計學緒論.
第 3 章 資料分類與蒐集 1.進行研究過程中最重要的步驟 2.資料收集與實驗設計具有關連性.
生物醫學統計學.
類別資料分析(Categorical Data Analysis)
二、以圖表描述資料 2. Charts & Graphs.
行銷研究 單元二 行銷研究的程序.
石牌金頭腦 概數篇(可複選)加油哦!.
第 1 章 資料與統計.
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
第7章 量表的建立—補充 4.1 基本觀念 4.2 測量程序 4.3 測量尺度 4.4 良好測量工具的特性 4.5 信度測量
第二部份 SPSS操作程序與方法 資料處理與數據查核.
17 類別資料的分析  學習目的.
第四章 數列與級數 4-1 等差數列與級數 4-2 等比數列與級數 4-3 無窮等比級數 下一頁 總目錄.
陳維魁 博士 儒林圖書公司 第九章 資料抽象化 陳維魁 博士 儒林圖書公司.
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
Excel資料庫分析 台灣微軟資深講師 王作桓.
第3章 資料的整理與表現- 統計表與統計圖.
一、緒論 1. Introduction.
第零章 統計學概論 0.1 統計學的定義 0.2 敘述統計學與推論統計學 0.3 測量尺度 0.4 資料、資訊與因果關係 ©2009 陳欣得
初級統計學 陳信如.
Regression for binary outcomes
REGRESSION FOR ORDINAL OUTCOMES 「順序尺度依變項」的迴歸模型
邏輯迴歸 Logistic Regression
敘述統計-資料的特性 Properties of Variable
SQL Stored Procedure SQL 預存程序.
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
第八章 科研资料的整理与分析.
Methods 靜宜大學資工系 蔡奇偉副教授 ©2011.
統計學  作者 : 吳榮彬(譯) 出版社 : 東華書局.
介紹SPSS SPSS 本為 Statistical Package for the Social Sciences 的簡寫,由於產品及功能不斷地擴充,目前改名成 Statistical Product and Service Solutions。
第二章 SPSS的使用 2.1 啟動SPSS系統 2.2 結束SPSS系統 2.3 資料分析之相關檔案 2.4 如何使用SPSS軟體.
第十一章 相關研究法.
第四章 原始資料的電腦化 Computerized Raw Data.
大數據與我 4A 陳駿榜.
Topic Introduction—RMI
數學 近似值 有效數值.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
信度分析 (11/7~11/13) 1.何謂『信度』 2.信度分析步驟.
Measurement in Research
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
楊志強 博士 統計學 楊志強 博士
實用數學 長度單位的認識與換算.
統計學簡介 許明宗.
電子期刊使用統計 CONCERT 2002 meeting November 13-14, 2002 羅宙康 Springer-Verlag
资料的描述性分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2012/7/6.
嘉義市崇文國小 製作者:林雅惠、張英燦、曾瑞媛 日期:
生物統計與SAS軟體課程教學(二) 單變項描述 (Descriptive Statistics)
Measurement Theory and Method
黃影雯副教授講授 E_Mail Address:
第十四章名義資料的數字 描述:關連測量 © Copyright 版權所有:學富文化事業有限公司。本光碟內容僅提供教師於教學上使用,非經本公司許可,禁止複製 (給學生)。感謝老師的配合。
第七章 資料轉換和 個案選擇 7.1 前言 7.2 〝Recode〞功能 7.3 〝Compute〞功能 7.4 〝Count〞功能
使用VHDL設計-8x3編碼電路 通訊一甲 B 楊穎穆.
國立台灣大學 關懷弱勢族群電腦課程 By 資訊工程 黃振修
第一章 直角坐標系 1-3 函數及其圖形.
資料結構與C++程式設計進階 期末考 講師:林業峻 CSIE, NTU 7/ 15, 2010.
Test for R Data Processing & Graphics
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
Presentation transcript:

謝寶煖 台灣大學圖書資訊學系 pnhsieh@ntu.edu.tw 2006年3月25日 量化研究與統計分析 資料檢誤 謝寶煖 台灣大學圖書資訊學系 pnhsieh@ntu.edu.tw 2006年3月25日

變異 Variety是所有統計的根本,測量與統計就是一門研究變異的科學 性別 年齡 教育程度 智商

變項或變數 Variable 某一屬性因時地人物不同的內容 常數(constant) 例:資訊焦慮是一個變項,每一個人的資訊焦慮程度可能都不同 常數(constant) 某一屬性或現象不因時地物而有所不同 例:重力加速度、人的染色體數目

變項的概念 屬性(attribute) 數值(value or quantities) 研究者所關心的現象或特殊層面,即變項的名稱 例:「學歷」變項,所指涉的屬性是教育程度高低 數值(value or quantities) 是變項的存在形式,是數字形式,還是透過測量而得

自變項與依變項 自變項、獨立變項 (independent variable, IV) 即原因變項,是不受任何因素影響的變項 依變項(dependent variable, DV) 即結果變項,是受自變項影響的變項 教育程度 vs. 薪資

間斷變項與連續變項 依數值的屬性區分 間斷變項(discrete variable) 連續變項(continuous variable) 數值個數是有限的,數值與數值間無法找到更小單位的數值 例:家庭子女數、家庭戶數、家用電腦數、性別、教育程度 又稱為類別變項(categorical variable) 連續變項(continuous variable) 數值個數有無限多種可能,或在一特定範圍內,可以用無限個數值來加以表示 是利用等距或比率尺等特定單位所測量得到的變項,變項中的每一個數值,皆代表強度上的意義 例:身高、體重 又稱為量化變項(quantitative variable)

變項的測量與統計分析策略 資料的性質決定於測量所使用的尺度(scale),也決定資料分析的層次(level) 測量尺度可分成四類 名義變項 (nominal scale) 順序變項 (ordinal scale) 等距變項 (interval scale) 比率變項 (ratio scale)

名義變項 (nominal scale) 針對受試者的某一現象或特質,評估其所屬類型,並賦予一特特的數值 如:性別(男、女) 婚姻狀況(已婚、未婚、離婚、喪偶) 學校(國立、私立) 是為類別尺度(categorical scale),為具分類功能的測量工具 變項數值僅代表不同的類別,沒有任何強度、順序、大小等數學上的意義 分類必須符合互斥與完整的特性,測量前應建立一分類架構,如:宗教信仰、婚姻狀況

順序變項 (ordinal scale) 針對受試者的某一現象或特質,測量其內容,評估其所屬類型,並賦予一特定的數值,除了具有分類的意義外,各名義類別間存在特定的大小順序關係 例:大學教授的層級(教授、副教授、助理教授、講師)、教育程度(研究所、大學、高中職、國中、國小及以下)、大學年級(一、二、三、四)、社經地位(高、中、低) 名義尺度之數值可由研究者任意指定,但是順序尺度的數值分配則需考慮順序關係,研究者僅可選擇升冪或降冪來排列不同的順序類別 順序尺度所測得的數值雖具有順序的意義,但是沒有特定的單位,所以除了大小順序之外,數值並無數學邏輯運算的功能與意義

名義變項 (nominal scale) 順序變項 (ordinal scale) 類別變項 列聯表分析/交叉表、crosstables 類別  類別  卡方檢定 (統計分析>描述性統計>交叉表>統計量>卡方統計量)

等距變項 (interval scale) 針對受試者的某一現象或特質,依特定的標準化單位,測定程度上的特性 等距尺度所測量到的數值,除了具有分類、順序的意義外,數值大小反應兩個受試者的差距或相對距離。 等距變項之數值具有分類、順序和差距的意義 例:溫度、以考試決定的學業成績、以智力測驗得到的智商 等距尺度的重要特性,是其單位只有相對的零點,而沒有絕對的零點。只有數學的意義,而沒有實徵的意義。

比率變項 (ratio scale) 當測量尺度使用了標準化的單位,同時又具有一個絕對的零點時,稱為比率尺度。 是真有零點的等距尺度,如身高(公分)、體重(公斤)、工作所得(元)、年齡(歲)、畢業年數(年) 在社會科學的研究中,許多變項與特定的人口特徵,測量尺度不但具有單位,而且單位的使用有一公認的標準與意涵,無關主觀判斷,無須以人為方式調整,而有一定的絕對零點,因此比率變項在社會科學研究中被廣泛使用

測量層次 =或不等 <或> +或- X或/ 名義測量    順序測量 等距測量 比率測量

尺度之轉換 低層次的資料(名義變項)統計方法,也適用較高層次的資料(等距或比率),因為高層次的資料,均具有較低層次資料的數學特性,但是高層次的資料若以較低層次的統計方法來分析時,資料並末充分運用,造成資源浪費與精度不足 例:身高 以公分來測量>比率尺度 轉換成高、中、低三組>順序尺度或名義尺度 若一開始即請受測者依一定標準勾選組別,則僅為類別變項 例:您的月收入是: 三萬元以下 三~四萬元 五至九萬元 十萬元以上 您的月收入是_______萬________千元

資料檢誤 目的在確保研究資料的 數據查核與清理: 檢查資料的正確性 數據整備: 重新整理資料以備分析之用 正確性(accuracy) 完整性(completion) 可用程度(availability) 數據查核與清理: 檢查資料的正確性 數據整備: 重新整理資料以備分析之用

資料查核 過程查核:資料未完成輸入前所進行的資料檢查程序 定點查核、定時查核或專人查核 終點檢核:資料完成輸入之後所進行的資料檢查程序

資料查核 終點檢核:資料完成輸入之後所進行的資料檢查程序 可能性檢查(wild code checking) 檢查是否有超出範圍的數值(out-of-range value) 資料筆數是否與樣本數相符 利用Excel的自動篩選功能 利用SPSS描述統計中的次數分配表 邏輯性查核(logical or consistency checking) 檢查資料結構 次數分配是否呈常態分配 是否有特殊的偏離值 利用SPSS的列聯表,將兩數的資料切割成細格來檢查,例如教育程度與年齡 利用SPSS的圖表功能,以散佈圖、莖葉圖等分析

資料整備 反向題處理 選項的分數高低,恰與其他題目相反 1:非常 5:非常不 反向編碼 1:非常不 5:非常

資料整備 遺漏值處理 非系統性遺漏 隨機作答 系統性遺漏 受訪者一致性的遺漏或拒填 設計虛擬變項,進行遺漏分析

資料整備 遺漏值處理 遺漏值的處置與估計 編製階段: 發展良好的工具 鍵入階段: 立即反應。搭配編碼系統來進行 鍵入後補漏: 錯誤補漏。 其他 不適用或無法作答(經驗性題目) 鍵入階段: 立即反應。搭配編碼系統來進行 鍵入後補漏: 錯誤補漏。 鍵入後估計 中間數估計法:量尺之中間值 平均數估計法 迴歸估計法

偏離值的處理 偏離值(outlier) 極端值(extreme) 單變項偏離值的處理 雙(多)變數的偏離現象 指變項偏離常態、不尋常的數值,也就是與多數受測者的反應數值極端不同的狀況 平均數+標準差 極端值(extreme) 嚴重的偏離情形 單變項偏離值的處理 次數分配與直方圖的使用 盒狀圖的運用 雙(多)變數的偏離現象

單變項偏離值的檢查 分析>描述性統計>次數分配表>圖表 分析>描述性統計>預檢資料

單變項偏離: 直方圖的使用 極端值

單變項偏離值的檢查 統計分析>描述性統計>預檢資料>圖形> 盒狀圖 統計圖>盒狀圖 連續變數

單變項偏離: 盒狀圖的使用

雙變項(單類別與單連續變項)偏離檢驗

三變項(單類別與單連續變項)偏離檢驗

雙變項(雙連續)偏離檢驗 統計圖>散佈圖

偏離值的處理 錯誤偵測: 重新調閱文本資料以確知資料的正確性 虛擬變項分析法: 將偏離值視為一組,非偏離值為一組,進行區別函數分析以確定那些變項可以區分此二組,這些變項便可能是造成多變項偏離值的變項,再以散佈圖來描繪該數值的位置。 去除法 合併組法 數學轉換法

反應心向 受試者在填答問卷時,無論測驗的內容和情況如何,受試者具有一種比較固定的作答傾向稱為反應心向(Wiggins, 1973) 反應心向的發生,有時是有意識的,有時是無意識的。但皆會影響資料的正確應用 反應心向的處理 系統性偏誤(廢卷處理法) 人格屬性的變項化處理 (事前估計法、統計控制法) 使用不同的測驗形式 、

常見的反應心向 離異反應心向(deviation)─受試者傾向於回答特殊的答案 順從心向或唯唯諾諾(acquiescence)─受試者傾向於回答同意(yeasayers)或不同意(naysayers)的答案 作答粗心(careless responding)或題項遺漏(omitting items) 偽善(faking good)與偽惡(faking bad) 批判、攻擊傾向(criticatness or aggression),指受試者的答案均較具有批判性或攻擊性。 社會讚許或社會偏愛反應心向(social desirability),也就是指受試傾向於以社會大眾所歡迎的語句或選項來描述自己的狀態,避免使用社會不贊同、具負面評價的填答方式。

SPSS統計軟體之運用

SPSS程式基本概念 資料定義(data definition) 使電腦能夠正確的辨認量化的數據,並對於數據賦予正確的意義。 變項名稱指定(變項標籤)、變項數值的標籤、變項的格式類型、遺漏值的設定。 資料定義必需與codebook配合,將適當的變項名稱與數據的意義加以標註,並設定適當的遺漏值,方能使後續的資料處理與分析能夠正確有效的進行。

統計分析>摘要>預檢資料

資料轉換(data transformation) 進行資料分析前的一些校正與轉換的工作 反向題的反向計分,出生年月變項轉變成年齡之新變項的創造。 廢卷處理、資料整備、遺漏值的補漏檢查等作業。 SPSS軟體提供的觀察值選擇、重新編組或四則運算等指令,皆能協助轉換工作的進行。 一旦轉換完成後,此一資料庫已可稱為乾淨的(clean and clear)的資料。

資料分析(data analysis) 依操作者的指令,進行各種的統計分析或統計圖表的製作。 操作者必須具備良好的統計基本知識,才能在數十種統計指令當中選擇適合的統計方法來分析資料。 操作者必須能夠閱讀分析之後的報表數據,從不同的指數與指標當,尋求關鍵且正確的數據來作為研究報告撰寫的根據。

Thank You! Q & A