第 1 章 資料與統計
Chapter 1 STATISTICS in PRACTICE 商業週刊 商業週刊有許多時下流行議題的深度報導。通常這些深度報導會引用許多統計事實與彙整的資料,以便讀者能瞭解商業及經濟資訊。 商業週刊本身也利用統計學及統計資訊管理自己的公司。
本章內容 1.1 商業與經濟上的應用 1.2 資料 1.3 資料來源 1.4 敘述統計 1.5 統計推論 1.6 電腦與統計分析
1.1 商業與經濟上的應用 會計 財務 行銷 生產 經濟
商業與經濟上的應用 會計上的應用 大多數會計師事務所在為客戶 做帳目稽核時會利用統計抽樣 程序。 例如,審計人員的一般作法是選擇一部分帳目,稱之為樣本。在檢閱這些樣本帳目的正確性後,審計員便做出資產負債表上的應收帳款總數是否可以接受的決定。
商業與經濟上的應用 財務上的應用 財務分析師利用本益比及股利的資料,幫助財務分析師針對通用電器公司之股票做出買進、賣出或繼續持股的建議。
商業與經濟上的應用 行銷上的應用 在行銷研究中,經常利用結帳櫃臺的電子掃描器來蒐集市場資料。 例如,在檢閱銷貨資料以及 促銷活動的統計資料之後, 品牌經理可以更加瞭解促銷 活動和銷售量之間的關係。 這樣的分析可以為未來眾多 商品建立更有效的行銷策略。
商業與經濟上的應用 生產上的應用 由於對品質的強調,使得品質管 理成為統計學的重要應用之一。 玲瑯滿目的統計品質管制圖常被 用來監控生產製程的產出。 例如,假設有部機器用於裝填容量12盎司軟性飲料,生產線上的作業人員可以定期抽取樣本,並計算樣本罐裝的平均容量。適當地解釋可以幫助判斷是否有必要調整製程。
商業與經濟上的應用 經濟上的應用 經濟學家通常要預測未來的 經濟狀況或相關發展趨勢, 他們運用許多統計資訊進行 這方面的預測。 例如,在預估通貨膨脹率方面,經濟學家可利用生產者物價指數、失業率和產能使用率等統計指標。通常這些統計指標會輸入電腦預測模式,以求得預測值。
1.2 資料 資料(data)與資料集合(data set) 元素、變數及觀察值 衡量尺度 定性和定量資料 橫斷面和時間序列資料
資料(data) 與資料集合(data set)
元素、變數及觀察值 元素(element)指的是資料蒐集的實體(entities)。 變數(variable)代表元素中某個屬性。 資料是由研究中所蒐集個別元素的所有變數之衡量值,對特定元素所蒐集的一組衡量值就稱為觀察值(observation)。
資料、資料集合、元素、變數及觀察值 資料集荷包含 8 個元素 5 種變數:交易所、股票代號、市值、本益比、毛利率 觀察值:第一個公司 (DeWolfe Companies) 的觀察值是 AMEX, DWL, 36.4, 8.4, 以及 36.7.
衡量尺度 名目尺度(nominal scale) 順序尺度(ordinal scale) 區間尺度(interval scale) 比例尺度(ratio scale)
名目尺度(nominal scale) 如果一個變數的資料是用來表示元素屬性的標記或名稱時,我們稱此衡量尺度是名目尺度(nominal scale)。 例如,表1.1的交易場所就是名目尺度的變數,因為這個變數的值如NYSE, AMEX及OTC都是標記,用來表示該公司股票交易的場所。量尺度是名目尺度時,資料內容可以是數值符號或非數值符號。
名目尺度(nominal scale) 為了方便蒐集資料,以及日後將資料輸入電腦的方便考量,我們可以以1來表示股票交易場所是NYSE,2表示AMEX,3表示OTC。這種情況的1, 2, 3是用來表示股票交易場所的標記,雖其為數值符號,但仍是名目尺度的資料。
順序尺度(ordinal scale) 如果變數的衡量尺度具有名目尺度的特性,而且資料的順序是有意義的時候,這個衡量尺度是順序尺度(ordinal scale)。 例如,某汽車修理廠發給顧客一份問卷以調查該公司的服務品質。服務評等共分三級,「傑出」、「好」以及「不佳」。「傑出」、「好」以及「不佳」是種標記,所以具有名目尺度的特性。
順序尺度(ordinal scale) 例如,以1表示服務品質傑出,2表示好,3表示不佳。因此,順序尺度的資料可以是數值或非數值。
區間尺度(interval scale) 如果變數的衡量尺度具有順序尺度的特性,而且觀察值之間的間隔有固定的衡量單位,這個變數的衡量尺度是區間尺度(interval scale)。 區間尺度的資料一定以數值表示。例如,學業成就測驗(Scholastic Aptitude Test , SAT)的分數就是區間尺度的資料。
區間尺度(interval scale) 例如,三個學生的SAT分數分別是1,120, 1,050及970。我們可以由高到低、依序排列,所以它們具有順序尺度的特性。同時,分數之間的差距也是有意義的。 例如,第一位學生的成績高於第二位學生70分(1120-1050=70),第二位學生的成績高於第三位學生80分(1050-970=80)。
比例尺度(ratio scale) 如果變數的衡量尺度具有區間尺度的特性,而且觀察值之間的比例是有意義的,則此變數的衡量尺度是比例尺度(ratio scale)。 與距離、高度、重量及時間有關的變數都是使用比例尺度。這種尺度的條件之一是必須包含零值。零值表示在零點時,該變數不包含任何東西。
比例尺度(ratio scale) 例如,汽車成本即是一例。成本為零表示汽車沒有成本、是免費的。此外,如果比較兩部汽車的成本,例如第一部是$30,000,第二部是$15,000,我們可以說第一部汽車的成本是第二部汽車的兩倍(30,000/15,000=2)。
定性和定量資料 資料分成定性資料或定量資料。 定性資料(qualitative data)是指用來表示元素屬性的標記或名稱。定性資料使用名目或順序尺度,可以是數值也可以是非數值。 定量資料(quantitative data)則使用區間或比例尺度。
定性和定量資料 定性變數(qualitative variable)是有定性資料的變數,定量變數(quantitative variable)是有定量資料的變數。 對特定變數而言,統計分析是否適當要視變數屬性是定性或定量而定。如果是定性變數,可以使用的統計分析相當有限。 我們可以將觀察值分類,計算每個類別的觀察值個數,或計算各個類別觀察值個數佔整體觀察值個數的比例。
定性和定量資料 即使定性資料以數值表示,諸如加、減、乘、除等算數運算都是沒有意義的。 算術運算對定量變數是有意義的。 例如,對定量變數而言,我們可以將所有的資料值加總後,除以觀察值的個數,即可得到平均數。這個平均數通常是有意義的,而且很容易解釋。一般而言,資料屬性是定量時,有較多的統計分析方法可供選擇。
衡量尺度 資料 定性資料 定量資料 數值 非數值 數值 名目 尺度 順序 尺度 名目 尺度 順序 尺度 區間 尺度 比例 尺度
橫斷面資料(cross-sectional data) 橫斷面資料是在相同(或幾乎相同)時點所蒐集的資料。 表1.1中的資料是相同時點下25檔影子股的5個變數的 資料,所以表中資料均是橫斷面資料。
時間序列資料(time series data) 時間序列資料則是數個不同時期的資料。 圖1.1是無鉛汽油平均價格,圖中顯示2002年3至4月的 平均價格急遽上升,之後的價格則穩定地維持在每加 侖$1.4至$1.47。
時間序列資料(time series data)
評註 觀察值是資料集合中每一個元素的測量值。因此,觀察值個數一定等於元素個數。每一個元素的測量值個數等於其變數個數。因此,資料集合中資料值的總個數等於資料集合中元素個數乘上變數個數。 定量資料可能是離散(discrete)或連續(continuous)的。定量資料衡量的數值若為可數,就是離散的。定量資料衡量的數值若為不可數,則為連續的。
1.3 資料來源 既有資料 統計研究 資料取得的錯誤
既有資料
統計研究 實驗研究(experimental study)中,首先要定義我 們感興趣的變數,接著界定並控制一個或以上的變 ,以便由蒐集的資料中瞭解變數是如何受影響的。 在非實驗(nonexperimental)或觀察研究(observational study)中,並不對感興趣之變數加以控制或影響。調 查(survey)或許是最常見的觀察研究之一。
資料取得的錯誤 管理者應該隨時注意統計研究中資料錯誤的可能性。使用錯誤的資料將比完全不使用這些資料來得更糟。 只要取得之資料值與經過正確程序取得的真實資料值不符合,就發生資料取得的錯誤。此類錯誤有幾種可能,例如,訪談員可能記錄錯誤,把24歲記成42歲,或者是受訪者誤解題意而做出不切題的回答。 實驗資料的分析人員會很謹慎地蒐集與記錄資料以防止錯誤發生。資料的內部一致性可藉由特別程序來檢查。
1.4 敘述統計 敘述統計(descriptive statistics)是一種以表格、圖形或數字彙總資料的方式。
實例 再參考一下表1.1的資料集合,其中列舉了25檔影子股票的相關資料。我們可利用敘述統計的方法彙總此資料集合的相關資訊。例如,表1.4中將交易場所這項變數的資料以表格的形式彙總,而同一資料的圖形表示在圖1.4,此種圖形稱為長條圖。以表格與圖形彙總資料,可使資料更容易解釋。從表1.4與圖1.4中,我們可以輕易看出,大多數的股票是在上櫃股票交易所中交易的。以百分比表示即68% 的股票是在上櫃股票交易所交易,20% 是在美國證券交易所交易,紐約證券交易所則佔12%。
實例
實例 定量變數毛利率的資料也可以圖形彙整,圖1.5是毛利率的直方圖。直方圖可以清楚地看出,毛利率介於0到74.9,集中於30.0到44.9。 除了表格與圖形之外,數值的敘述統計亦經常被用來彙總資料。最常用的數值敘述統計是平均數(average或mean)。我們可以計算表1.1中25檔影子股票的平均市值,只要將25個市值加總後除以25,即可得到平均市值為$11,240萬。平均數可顯示資料集合的中央趨勢或中央位置。
1.5 統計推論 - 母體是研究中所有元素所成之集合。 母體 樣本 - 樣本是母體的部分集合。 統計推論 1.5 統計推論 - 母體是研究中所有元素所成之集合。 母體 樣本 - 樣本是母體的部分集合。 統計推論 - 統計學的主要貢獻之一是利用由樣本所得的 資料對母體特性做估計與假設檢定,這種程 序就是統計推論(statistical inference)。 普查 -蒐集整個母體的資料進行調查。 樣本調查 - 蒐集樣本的資料進行調查。
Norris例子的統計推論過程
1.6 電腦與統計分析 統計分析通常牽涉大量資料 分析人員常借電腦軟體之助來從事分析工作 1.6 電腦與統計分析 統計分析通常牽涉大量資料 分析人員常借電腦軟體之助來從事分析工作 為促進電腦的使用,課文中提及的大筆資料皆儲存於隨書附贈的光碟片,課文邊欄中出現的圖樣名稱(例如,Norris)表示該資料集在光碟中的檔名。 資料集有Minitab與Excel兩種格式,在每章的附錄裡會說明使用Minitab與Excel進行統計分析的方法。
End of Chapter 1