資料採礦產業應用實務 鄭宇庭 教授
Agenda 台灣客戶成功案例研究 Data Mining的應用 Data Mining在電信業的應用 Data Mining在金融業的應用 探究電信資料異常之研究 電信業潛在客戶發掘 Data Mining在金融業的應用 Data Mining在保險業的應用
台灣客戶成功案例研究
台灣客戶成功案例研究-威達電 1997年成立 憑著「少量多樣、量身打造」的設計、研發與製造優勢、快速滿足各領域產業對工業電腦之需求,而使該公司成為全球第三大與台灣第二大 2005年轉型為特製電子研發代工服務廠商(UEMS, Unique Electronic Manufacturing Services) 由於經營策略轉變對商業智慧(BI)需求提升
台灣客戶成功案例研究-威達電 「商業智慧(BI)的功能,就是從現有的系統中取得有用的決策資訊,轉化為分析性的決策指標,以協助高階主管制定決策」 早期建置BI應用成效不彰,其原因: 導入成本太高 導入時間較長 使用介面親和度不足
台灣客戶成功案例研究-威達電 重新定位經營策略後,重新嘗試建置,但由於過去經驗,讓使用者對建置BI系統興趣缺缺。 IT部門則以投資最低水準來建置,其中 設定低成本、容易導入以及友善使用者介面為導入考量條件 硬體方面,則採用配備Intel Xeon處理器的伺服器,滿足BI的運算需求 解決方案上,則由台灣瑞智以本身分析工具結合Microsoft SQL Server資料庫 投資成本僅須舊專案的十分之一即可運作
台灣客戶成功案例研究-威達電 關鍵績效指標(KPI)管理基礎的建立 在未導入BI前,就有關鍵績效指標管理的基礎,因此成為成功導入BI的重要因素 在過去,KPI管理報表是由助理透過Excel編製,每當報表完成,所提供之資訊也已經過時 而BI系統則是將人工編制報表過程,改以Web化介面結合BI工具產生,不僅易於操作,資訊時間差也可以大幅縮短
台灣客戶成功案例研究-威達電 威達電資訊服務處協理蔡本源說:「IT專案一項所費不貲,效益又很難量化,導致使用者缺乏信心,但是微軟的解決方案不僅深具成本效益,還能快速導入、輕鬆上手,不一定要花大錢也能得到很大效果,使重新推動的BI專案能重拾使用者的信心。」
台灣客戶成功案例研究-威達電 舊版SQL Server在BI應用僅提供平台,能需外掛多功能元件才可開發出適合的BI應用程式;而SQL Server 2005則整合更多工具及發展出更成熟的功能 整體功能上,可與領導品牌BI解決方案並駕齊驅;而投資成本上卻相對更底,滿足威達電以最少投資達成做大效益的目標
45% 36% 台灣在軟體開發平台與工具使用現況 軟體開發工具 Web Services解決方案 Source: WW DevTracker PC Week 資訊傳真 Nov.29, 2004, 第734期
台灣在資料庫與商業智慧平台使用現況 57% 7% 5% SQL Server 在台灣近半年市場佔有率成長 14 百分點 ! 2005/1 台灣資料庫使用市佔率 SQL Server 在台灣近半年市場佔有率成長 14 百分點 ! Source: IDC Server Tracker 2005/1 (Install Base Share)
台灣客戶成功案例-元大京華證券 台灣証券業領導廠商 IT Requirements Visual Studio Team System Time-to-Market Solutions 整合的開發環境 Visual Studio Team System 大幅簡化開發時間 提昇專案管理績效 Excellent team collaboration
台灣客戶成功案例-長榮航空 台灣航空業領導廠商 IT requirements Visual Studio Team System 關鍵性任務的平台與高品質 自動的 Work Load Test Visual Studio Team System 標準化開發過程 Software Quality Metrics 正式上線前的效能測試與保證
台灣客戶成功案例-技嘉科技 台灣主機板的領導廠商 SQL Server 2005 效能提升 159% Process 1 億筆資料的 cube, SQL Server 2000 需要 70 分鐘, 但, SQL Server 2005 只需要 40 分鐘 SQL Server 2005 為技嘉每年節省 1,095 小時
台灣客戶成功案例-台新銀行 擁有廣大客戶群的台灣領導銀行 SQL Server 2005 64-bit 提供台新 9.5 倍 更快的決策 Upgrade 6 億筆的資料 DB 至 SQL server 2005, 只花費 10 分鐘
Data Mining的應用
Data Mining的應用 Customer-focused Operations-focused Research-focused ●Life-time Value ●Market-Basket Analysis ●Profiling & Segmentation ●Retention ●Target Market ●Acquisition ●Knowledge Portal ●Cross-Selling ●Campaign Management ●E-Commerce ●Profitability Analysis ●Pricing ●Fraud Detection ●Risk Assessment ●Portfolio Management ●Employee Turnover ●Cash Management ●Production Efficiency ●Network Performance ●Manufacturing Processes ●Combinatorial Chemistry ●Genetic Research ●Epidemiology
Data Mining的應用 20 40 60 80 % of Respondents Customer profiling 20 40 60 80 % of Respondents Customer profiling Targeted marketing Market basket analysis Attrition management Fraud detection Credit risk analysis Type of Application
Data Mining在各產業的應用 金融服務業 客戶貢獻度分析、信用評分、風險評估、客戶區隔、交叉行銷等。 保險業 電信業 顧客貢獻度分析、信用評分、風險評估、客戶區隔、交叉行銷、客戶流失分析和詐欺偵測等。 電信業 顧客貢獻度分析、信用評分、客戶區隔、交叉行銷、客戶流失分析、銷售預測和詐欺偵測等。
Data Mining在各產業的應用 製造業 零售業 生物科技、醫療保健、航太空業、環境、法律等 客戶貢獻度分析、品質管制、行銷績效分析、生產分析和存貨分析等。 零售業 客戶忠誠度、客戶區隔、購物籃分析、定價分析、交叉行銷和銷售預測等。 生物科技、醫療保健、航太空業、環境、法律等
Data Mining在電信業的應用 探究電信資料異常之研究
盜撥行為的分析 近年來在電信業中發展出許多有效但昂貴的硬體防盜設備,因此並不是所有的電信業者都能夠即時的採用。 由於盜撥行為氾濫,會造成基地台及設備佔用的問題,因而影響到正常用戶的使用權利。 若盜撥行為無法有效解決,將會造成舊用戶的流失,更會影響到開發新客戶的業績。 電信業者必須加派許多人力來處理這些被盜撥客戶的抱怨。 由於這些硬體設備其功能完全專注於偵測盜撥,而無法針對某些特定的用戶族群去做行為上的分析,以幫助策略上的制定與調整。
電信詐欺 電話盜打的兩種類型 電話盜撥約占業者總體通話費收入的2%左右。 技術性盜打(Cloning) 利用破解技術或電子方式,傳送出一個可被系統認為有效的帳號,然後無限制地進行「暢談」。 文件性盜打(Subscription Fraud) 利用人頭帳號或無效、偽造的身份證件,來申請一個正式有效的帳號,從此坐享「無溝通障礙」的境界。 電話盜撥約占業者總體通話費收入的2%左右。 若以平均每個用戶通話費80美元,每個系統業者共有10萬名用戶來看,這將使系統業者每年短收192萬美金的進帳。
研究系統架構與流程 第一階段 原始電信資料檔 資料轉換 訓練及測試 歷史資料庫 資料庫 計算資訊含量 設定門檻值 標示出正常與異常並找出特徵屬性 設定門檻值 第一階段
資料前置 處理 倒傳遞類 神經網路 異常分析 結 果 新資料庫 第二階段 第三階段
原始資料之樣式 ID Time Called Calling OPC DPC Length 1 2000/11/12 09:13:02 0986123456 0985325812 2000 3000 13 2 2000/11/12 20:32:16 0991876543 0200000001 9000 78 3 2000/11/12 18:11:49 030000001 030000002 4000 157 4 2000/11/12 07:50:05 0995789432 0996190783 53 5 2000/11/12 11:59:59 070000003 0983394857 8000 71 6 2000/11/12 12:45:01 070000004 0200000002 66 7 2000/11/12 06:20:11 0996197368 0200000003 19 8 2000/11/12 23:34:45 0998222890 0986090135 183 9 2000/11/12 09:44:42 0998134765 0993187349 344 10 2000/11/12 19:12:36 060000005 0200000004 7000 98 … ……
演算法詳細步驟 計算歷史資料庫資訊含量的平均值及標準差 目的是要分析電信資料的異常情況,因此如何有效找出異常區間便成為最主要工作之一 。 利用歷史資料,計算出其資訊含量的平均值及標準差,並以此當作一個正常區段該有的資訊含量。接著便可把這個資訊含量當作評估指標,用來找出現有資料庫中,那些區間是異常的情況。 當歷史資料庫的資料筆數越多時,所計算出來的資訊含量也會越大。
資訊含量與資料庫筆數之比較圖
標示出異常區間及特徵屬性 當有了歷史資料庫資訊含量的平均值與標準差後,我們便可利用它來標示現有資料庫的異常區間。 由於整個資料庫的資訊含量是由六個屬性的資訊含量加總而來的,因此若現在資料庫的資訊含量大於3.5,則表示這六個屬性必定有某幾個資訊含量值偏高,而影響了整個資料庫;反之,若現在資料庫的資訊含量小於2.5,則表示這六個屬性必定有某幾個資訊含量值偏低。
各屬性的平均值與標準差 屬性名稱 平均值 標準差 Time 0.486 0.021 Called 0.668 0.036 Calling 0.734 0.042 OPC 0.268 0.016 DPC 0.302 0.018 Length 0.528 0.024
某一電信資料庫異常區間的標示結果(平均值為3,標準差為0.5) 編號 區間 各屬性的資訊含量 正常或 異常 特徵 屬性 Time Called Calling DPC OPC Length 1 001-100 0.482 0.674 0.693 0.260 0.287 0.551 正常 NULL 2 101-200 0.502 0.694 0.983 0.487 0.316 0.549 Calling DPC 3 201-300 0.746 0.682 0.774 0.282 0.309 0.793 Time Length 4 301-400 0.467 0.754 0.283 0.301 0.543 5 401-500 0.691 0.709 0.267 0.297 0.535 6 501-600 0.469 0.429 0.503 0.263 0.290 0.515 Calling Called 7 601-700 0.499 0.649 0.698 0.258 0.509 8 701-800 0.471 0.642 0.497 0.257 0.293 0.239 Calling Length 9 801-900 0.470 0.701 0.727 0.272 0.511 10 901-1000 0.638 0.269 0.319 0.527 ……
設定門檻值,增加或刪除異常區間 經由門檻值(Threshold)的設定,將可以依照每個使用者的需求(容忍範圍),來增加或減少異常區間的個數。而門檻值所代表的意義,也可以說是調整標準差的大小。 例如前述例子所提到的歷史資料庫其平均值及標準差分別為3及0.5,而其預設的門檻值就是16.67%(0.5 / 3 * 100%)。
實證研究與結果分析 可分為三大部分:全部資料庫分析、特定族群分析與及單一樣式分析。 希望能夠讓不同的使用者,根據他們不同的需求,藉由不同的分析方式,以找出隱藏在資料庫中的資訊,讓使用者能夠針對這些資訊做進一步的分析。
全部資料庫之分析 在全部資料庫的分析中,本研究先從目前所擁有的電信資料庫中取出54000筆通話記錄來作為實驗的資料。 將這些資料分成三部份:歷史資料庫、訓練資料庫與測試資料庫。
不同隱藏層的測試
不同學習速率的測試
根據原始資料的顯示,本研究發現在區段2、區段4及區段10中,其Called與Calling屬性所出現的電話號碼幾乎都是屬於同一家電信公司的門號,因此可以看出在這些異常區段中隱含了「網內互打增加」的資訊,而造成此異常的原因可能是此家電信公司推出了網內互打半價或者網內互打免費的行銷策略。 也發現在區段6及區段8中,其Time屬性的資訊含量突然地減少,而造成這兩個區段異常的主要原因是,在同一個時間中連續出現了2~3筆通話記錄,有時甚至出現了6~7筆,這個異常可以告知管理者在這些區段中是屬於通話的尖峰時間,此時管理者可以根據這些通話量的多寡,考慮是否必須增加硬體設備,以應付尖峰時間的通話量,才不會造成用戶的抱怨。
特定族群之分析 將針對兩個不同的族群組合來做分析。 首先先利用SQL的指令,將所選擇的特定族群屬性從資料庫中挑選出來,並把它儲存在一個新的資料表中。 當準備好所需資料後,本研究便可以利用歷史資料庫來算出其資訊含量的平均值及標準差。 有了正常與異常的區段後,接著就可以透過本系統將其轉換成特定格式的訓練資料檔及測試資料檔,並標示出哪些記錄是正常或異常,然後便可繼續進行類神經網路的訓練與測試。
根據原始資料的顯示,可以發現在區段1及區段3中,其Called與Calling屬性所出現的電話號碼幾乎都是屬於同一家電信公司的門號,因此可以看出在這兩個異常區段中隱含了「網內互打增加」的資訊,而造成此異常的原因可能是此家電信公司推出了網內互打半價或者網內互打免費等行銷策略。 在區段5中,其Called屬性的資訊含量突然地降低,經過分析後,可以發現造成此區段異常的通話記錄幾乎都是A電信公司的門號,因此,可以發現此公司的用戶常常與A電信公司的用戶有通話的往來,所以此公司也許可以找A電信公司共同推出一些新的方案,以吸引更多的用戶加入。
單一樣式之分析 研究可以發現在某些區段中,其Called屬性所出現的電話號碼幾乎都是同一位使用者,而且這個電話號碼並非該電信公司的門號,因此便可以針對這個用戶做一些特別的行銷。 本研究也發現在某區段中,其OPC與DPC突然出現了與平常不一樣的情況,此時我們就必須要特別注意,因為這些通話可能是一個盜撥的情況,或者是因為此用戶離開了資料所在地區所造成的結果。
結論 本研究希望能夠藉由分析龐大的電信通話記錄,進而找出其異常的部分,再經由特徵屬性來幫助分析這些異常的原因,以幫助電信業者有效地處理這些龐大的通話記錄,甚至對於如何訂定其行銷策略能有所貢獻。 經由不同的分析方式來驗證本研究方法的可行性,我們發現本系統的確能夠找出資料庫中異常的區間,並提供有效的資訊給予使用者,相信對於偵測資料異常方面的相關研究應該會有所幫助。
Data Mining在電信業的應用 電信業潛在客戶發掘
研究動機 由於電信業市場蓬勃發展,在台灣的電信自由化風潮下,產業的開放帶動了台灣電信產業的成長,在如此自由化的啟動之下衍生出的廣大商機成為了全台灣的焦點,也因此電信產業的特性與行銷策略的制定跟著成為大家所關注的議題。
研究目的 本研究利用Data mining技術結合統計抽樣方法,以集群分析、判別分析、決策樹等統計相關分析方法來為電信業帶來更深入的資訊 ,利用有手機顧客群之滿意度及忠誠度項目進行分群,來發掘無手機顧客群中的潛在顧客
研究架構圖 相關專業領域知識 收集相關資料、資訊及技術 資料型態判斷 研究主題之建立 資料淨化、處理 資料抽樣 主成分分析、因素分析、集群分析、迴歸樹分析 集群分析、羅吉斯迴歸分析、分類樹分析 利用判別分析建立判別模型 找出各群特性 檢驗模型 決策人員 離散資料 連續資料 模型判斷不恰當 模型判斷正確
研究方法 集群分析(Cluster Analysis) 判別分析(Discriminant Analysis) 集群分析法是一種劃分方法,目的在將一些事物歸併在一起,利用群體中各事物都具有相同的特性,而在群體與群體之間卻有顯著的差異。 判別分析(Discriminant Analysis) 所謂判別分析法,是在已知的分類之下,一旦遇到有新的樣本時,可以利用此法選定一判別標準,以判定該將新樣本放置於那個類群中。
研究方法 CHAID決策樹 決策樹是從一個或多個預測變數中,針對類別應變數的階級,預測案例或物件的關係;分類樹的目標是針對類別應變數加以預測或解釋反應結果。
研究流程圖 資料抽樣 比較母體與樣本 之間結構是否一致 利用樣本進行集群分析 決定最佳分群 利用判別分析找出判別模型 根據特性做建議 提供給系統廠商做決策 母體代入模型, 檢驗抽樣樣本 模型判斷不恰當 兩者結構不一致 一 致 顧客資料
採礦模型檢視器 Cluster Vabiable1 Vabiable2 Vabiable3 1 2 3 4 5
採礦模型檢視器 檢視Cluster的比例及其條件式 觀察屬於該節點之觀測值 滑鼠右鍵 Vabiable3 Vabiable2
採礦模型檢視器 此節點中 集群1=1的比例有59.59% 集群1=0的比例有40.40% 其特性為 職業=1 年齡=2 籍貫=1 職業=1, 年齡=2, 籍貫=1 此節點中 集群1=1的比例有59.59% 集群1=0的比例有40.40% 其特性為 職業=1 年齡=2 籍貫=1
模型相依性網路 年齡 性別 教育程度 職業 籍貫 各群 各變數與預測變數間的關聯性 弱 自變數 預測變數 強
職業 性別 年齡 籍貫 戶籍 教育程度 比例表現,其數字表示最大之比例 男 女
群集圖表 在群集2中,則無”0-1 Miles”的資料 在群集3中 ”0-1 Miles”的比例最高,有74%
群集設定檔 value1 value2 value3 value4 value5 missing 說明: 了解各群集中,各變數的分佈比例,以圖中為例,群集2中,距離為”value1”的有0.4%、 ”value2”的有25.7%、 ”value3”的有13.6%、 ”value4”的有32%、 ”value5”的有28.3%
群集特性 Variables 說明: 針對各群集中,所有自變數之各選項,其分佈機率值,可看其各群集中,各變數主要分佈比例情形
群集辨識 說明: 群集間兩兩比較,了解各變數其值在兩群間之比重分數,以圖中為例,Age在47.7~95之間者,在群集2中的得分為100,而24~47.7在群集1中的分數為100
研究方法 抽樣 由母體抽出0.5%的樣本 由基本資料檢驗母體與樣本結構的相似性
母體樣本結構比較—性別
母體樣本結構比較—年齡
母體樣本結構比較—教育程度
母體樣本結構比較—籍貫
母體樣本結構比較—職業
母體樣本結構比較—戶籍(北)
母體樣本結構比較—戶籍(中)
母體樣本結構比較—戶籍(南)
母體樣本結構比較—戶籍(東、澎)
步驟一、K-means集群分析法找出最佳集群數 F值 三群 四群 五群 六群 七群 八群 清晰滿意 111.801 45.413 70.408 67.826 61.356 56.862 付費合理 94.828 56.357 71.916 68.875 78.983 62.052 服務效率 122.101 212.466 187.742 170.479 179.111 122.012 服務人員 161.522 252.438 238.219 194.914 160.409 148.782 整體服務 164.152 142.466 181.745 155.755 137.811 112.530 更換系統 5.918 5.228 3.848 7.156 4.949 5.124 手機品牌 3910.058 2550.775 1951.107 2825.233 1715.410 1484.845 更換手機 5.144 1.928 1.622 6.138 3.342 7.986 手機外型 102.354 47.872 73.517 65.956 58.504 47.268 手機功能 162.667 17.568 103.174 56.036 72.058 74.160 手機整體 195.884 31.362 155.297 83.205 112.220 128.002 電磁波 90.124 562.990 305.317 237.374 237.767 309.723
步驟二、判別分析計算分群正確率 正確率 Percent 集群一 集群二 集群三 集群四 集群五 100.00 200 97.93 284 4 97.93 284 4 2 91.42 11 213 9 99.78 1 462 98.50 131 Total 97.80 295 218 475
步驟三、針對各群特色加以命名 引領風潮者 流行擁護者 健康主義者 中庸型顧客 挑剔型顧客 清晰滿意 滿意 非常滿意 非常不滿意 付費合理 服務效率 服務人員 整體服務 手機品牌 摩托羅拉、易利信、諾基亞 其他品牌 手機外型 普通 手機功能 手機整體 電磁波 不太擔心 一點不擔心 有點擔心 非常擔心
交叉分析 在這五群中潛在顧客大都集中在男生,其中只有中庸型顧客群是集中在女生的比例較多。 性別 引領風潮 流行擁護 健康主義 中庸型 挑剔型 總計 男 105 179 133 231 95 743 52.50% 61.72% 57.08% 49.89% 71.43% 女 111 100 232 38 576 47.50% 38.28% 42.92% 50.11% 28.57% 200 290 233 463 1319 在這五群中潛在顧客大都集中在男生,其中只有中庸型顧客群是集中在女生的比例較多。
交叉分析 20-29歲:引領風潮者、健康主義者。 30-39歲:流行擁護者、中庸型顧客、挑剔型顧客。 年齡 引領風潮 流行擁護 健康主義 總計 20歲以下 13 18 34 36 9 110 6.50% 6.21% 14.59% 7.78% 6.77% 20-29歲 80 85 77 142 42 426 40.00% 29.31% 33.05% 30.67% 31.58% 30-39歲 64 115 61 149 44 433 32.00% 39.66% 26.18% 32.18% 33.08% 40-49歲 38 52 109 33 274 19.00% 17.93% 18.03% 23.54% 24.81% 50-59歲 4 16 25 3 2.00% 5.52% 5.58% 5.40% 2.26% 60以上 1 6 2 15 0.50% 1.38% 2.58% 0.43% 1.50% 200 290 233 463 133 1319 20-29歲:引領風潮者、健康主義者。 30-39歲:流行擁護者、中庸型顧客、挑剔型顧客。
交叉分析 教育程度為高中高職程度:流行擁護者、健康主義者。 教育程度為大專及以上程度:引領風潮者、中庸型顧客、挑剔型顧客。 教育程度 總計 國中及以下 20 48 50 49 13 180 10.00% 16.55% 21.46% 10.58% 9.77% 高中高職 57 122 98 186 41 504 28.50% 42.07% 42.06% 40.17% 30.83% 大專及以上 123 120 85 228 79 635 61.50% 41.38% 36.48% 49.24% 59.40% 200 290 233 463 133 1319 教育程度為高中高職程度:流行擁護者、健康主義者。 教育程度為大專及以上程度:引領風潮者、中庸型顧客、挑剔型顧客。
交叉分析 各集群在籍貫上的分佈都集中在本省閩南的人為主。 籍貫 引領風潮 流行擁護 健康主義 中庸型 挑剔型 總計 客家 35 24 12 44 22 137 17.50% 8.28% 5.15% 9.50% 16.54% 本省閩南 151 236 186 331 91 995 75.50% 81.38% 79.83% 71.49% 68.42% 外省籍 13 30 79 15 172 6.50% 10.34% 15.02% 17.06% 11.28% 原住民 1 9 5 0.50% 0.00% 1.94% 3.76% 200 290 233 463 133 1319 各集群在籍貫上的分佈都集中在本省閩南的人為主。
交叉分析 職業的分群中以在民營企業之白領階級及勞力工作者為主 職業為民營企業白領階級者:引領風潮者、中庸型顧客、挑剔型顧客。 流行擁護 健康主義 中庸型 挑剔型 總計 學生 24 15 44 43 7 133 12.00% 5.17% 18.88% 9.29% 5.26% 家庭主婦 14 22 53 2 115 7.00% 8.28% 9.44% 11.45% 1.50% 軍公教 17 18 16 62 10 123 8.50% 6.21% 6.87% 13.39% 7.52% 民營企業白領上班族 64 81 41 110 38 334 32.00% 27.93% 17.60% 23.76% 28.57% 專業技術人員 3 0.00% 0.65% 勞力工作者 51 102 75 77 37 342 25.50% 35.17% 32.19% 16.63% 27.82% 自營商 32 29 84 19 188 11.03% 12.45% 18.14% 14.29% 失業退休 5 4 42 2.50% 2.41% 1.72% 5.18% 其他 1 11 0.50% 3.79% 0.86% 1.51% 8.27% 200 290 233 463 1319 職業為民營企業白領階級者:引領風潮者、中庸型顧客、挑剔型顧客。 職業為勞力工作者:流行擁護者、健康主義者。
交叉分析 本研究將各縣市分為北、中、南、東四區。 北部為台北市、基隆市、新竹市、台北縣、宜蘭縣、桃園縣、新竹縣、苗栗縣。 戶籍 引領風潮 流行擁護 健康主義 中庸型 挑剔型 總計 北部地區 86 130 79 209 70 574 43.00% 44.83% 33.91% 45.14% 52.63% 中部地區 54 50 65 111 21 301 27.00% 17.24% 27.90% 23.97% 15.79% 南部地區 59 107 78 137 38 419 29.50% 36.90% 33.48% 29.59% 28.57% 東部地區 1 3 11 6 4 25 0.50% 1.03% 4.72% 1.30% 3.01% 200 290 233 463 133 1319 本研究將各縣市分為北、中、南、東四區。 北部為台北市、基隆市、新竹市、台北縣、宜蘭縣、桃園縣、新竹縣、苗栗縣。 中部為台中市、台中縣、彰化縣、南投縣、雲林縣。 南部為高雄市、嘉義市、台南市、嘉義縣、台南縣、高雄縣、屏東縣、澎湖縣。 東部為台東縣、花蓮縣。 各集群在戶籍上的分佈都集中在北部地區的人為主。
結論與建議 透過分群模式,針對已分群樣本基本資料建立判別模型, 將沒手機的樣本放入判別模型判別,找出最有可能是屬於哪一群的潛在客戶, 配合專業知識,提出行銷建議; 本研究將各群針對特性加以命名,如下: 引領風潮者 流行擁護者 健康主義者 中庸型顧客 挑剔型顧客
合弦鈴聲、聊天室、購物指南、影像 寫真…等的功能 集群一:引領風潮者 學生 台北縣(63﹪) 家庭主婦 嘉義市(82﹪) 彰化縣(29﹪) 上班族 勞工 苗栗縣(47﹪) 台南市、20~29歲(38﹪) 特色: 新穎的外觀 合弦鈴聲、聊天室、購物指南、影像 寫真…等的功能 行銷建議: 只要有夠酷、夠炫、有別於他人,獨樹一格(會唱歌、彩色螢幕、WAP等)的手機,便可吸引他們的目光。
此一族群的消費者選擇三大知名品牌(摩托羅拉、易利信、諾基亞),只要系統廠商與手機業者時時推出三大品牌新手機與門號,便可打動此族群消費者的心。 集群二:流行擁護者 學生 高雄市(50﹪) 上班族 台南市(50﹪) 桃園縣(33﹪) 勞工 台北市、高中高職(36﹪) 基隆市、20歲以下(46﹪) 基隆市、50~59歲(33﹪) 台中市、外省籍(100﹪) 台南市、40~49歲(92﹪) 台北縣、客家籍、 男性、20~29歲(44﹪) 特色: 品牌知名度高 WAP上網、備忘錄功能 全球定位式系統 行銷建議: 此一族群的消費者選擇三大知名品牌(摩托羅拉、易利信、諾基亞),只要系統廠商與手機業者時時推出三大品牌新手機與門號,便可打動此族群消費者的心。
可結合具有健康概念的手機,撘配系統門號,推出以減低電磁波對人體的傷害為主軸的行銷策略,較能吸引健康主義者的消費者。 集群三:健康主義者 學生 台北市(57﹪) 家庭主婦 台南市(39﹪) 上班族 宜蘭縣(42﹪) 勞工 高雄市、國中以下(30﹪) 台中市、本省閩南籍(39﹪) 台北縣、客家籍、 男性(48﹪) 台北縣、外省籍、 40~49歲(100﹪) 女性、30~39歲(60﹪) 特色: 操作簡便 親子互動式手機 行銷建議: 可結合具有健康概念的手機,撘配系統門號,推出以減低電磁波對人體的傷害為主軸的行銷策略,較能吸引健康主義者的消費者。
建議業者在手機的促銷上應多考慮提供其他品牌的手機,以因應此一集群消費者之需求。 集群四:中庸型顧客 學生 桃園縣(79﹪) 家庭主婦 台北市(50﹪) 高雄市(65﹪) 台中市(74﹪) 雲林縣(64﹪) 上班族 台北市(36﹪) 高雄市(54﹪) 新竹縣(92﹪) 勞工 宜蘭縣(88﹪) 台北市、國中以下(44﹪) 台北縣、外省籍、 20歲以下(100﹪) 特色: 堅固耐用的款式 手機的防摔、防震、防水功能 行銷建議: 建議業者在手機的促銷上應多考慮提供其他品牌的手機,以因應此一集群消費者之需求。
如增設基地台以加強收訊品質、降低通話費率、增設服務站、加強員工訓練以提昇其工作效率與服務態度、品質。 特色: WAP上網 投資理財 網路下單 行銷建議: 如增設基地台以加強收訊品質、降低通話費率、增設服務站、加強員工訓練以提昇其工作效率與服務態度、品質。 手機廠商在外型的設計上,應增加其外型的多樣性。 集群五:挑剔型顧客 專業人員(43﹪) 學生 南投縣(56﹪) 上班族 新竹縣(50﹪) 勞工 高雄市、大專以上(56﹪)
Data Mining在金融業的應用 在財務危機預警模式之應用
研究背景與動機 在景氣低迷的影響下,使得許多營運不良的公司,陸續爆發財務危機,尤以87年底最為嚴重。 提早發現惡化的徵兆 ,將能降低財務危機事件發生的可能性,進而規避風險。 除了自身營運不佳外,本身內部監理制度的不健全以及股權結構的問題,也是構成財務危機發生的原因之一。
研究目的 找出真正影響危機發生的顯著變數。 採用資料採礦技術,分別建構危機前一年、危機前二年以及危機前三年之財務預警模式。藉以幫助企業、投資者,將損失減至最低,冀能提供政府單位作為決策之參考 透過決策樹的方法進行變數之間互動情形。
研究流程 問題認知 了解資料 確認研究問題 蒐集資料 清理資料與分割 決策樹 蒐集相關文獻 資料準備 羅吉斯模型 類神經模型 模型評估與比較 結論與建議 建立模型 成效評估 規劃部署
研究範圍與對象 研究對象:1996年至2002年台灣扣除金融業與證券業之上市公司 危機時點: 1999年至2002年間有發生財務危機公司特性之公司,分別蒐集該公司於發生危機時間點之前3年的資料 依據產業別以1:1的配對方式進行樣本配置,總樣本為118家 資料來源: 台灣新報文化事業股份有限公司資料庫 上市公司公開說明書
研究架構 財務變數 股權結構 董事會結構 決策樹 羅吉斯模型 類神經模型 模型評估與比較 平均數檢定 關聯性分析 挑選後的財務變數、股權結構變數、董事會變數 決策樹 平均數檢定 關聯性分析 標準化、因素分析 羅吉斯模型 類神經模型 模型評估與比較
研究變數
敘述性統計
敘述性統計
風險– 危機前一年 水泥 紡織 電機 玻璃 鋼鐵 橡膠 營造 航運 獲利能力 成長力 週轉率 流動性 現金流量 負債或費用 狀況 負債或 槓桿程度 橡膠 營造 航運
風險– 危機前二年 食品 電機 橡膠 營造 週轉率 流動性 獲利能力 成長力 負債或費用 狀況 塑膠、汽車 現金流量 槓桿程度 成長力 水泥、化學 航運 流動性 獲利能力 成長力 食品 負債或費用 狀況 塑膠、汽車 現金流量 槓桿程度 電機 成長力 電器、玻璃 流動性 橡膠 流動性 獲利能力 成長力 負債或費用 狀況 槓桿程度 營造
整體而言,以水泥業、營建業以及航運業的表現最差 風險– 危機前三年 流動性 週轉率 現金流量 水泥 獲利能力 食品 成長力 塑膠 紡織、電器 玻璃 負債或費用 狀況 電機、鋼鐵 橡膠 航運 營造 槓桿程度 電子 整體而言,以水泥業、營建業以及航運業的表現最差
最後篩選之變數
因素分析
危機前一年
危機前二年
危機前三年
羅吉斯迴歸 因素篩檢變數 關聯性篩檢變數 Enter Forward-LR
類神經網路 倒傳遞類神經網路(MLP) 隱藏層神經元:2p-2,2p-1,2p,2p+1,2p+2 學習率:0.01,0.05,0.1 動量(Momentun):0.3(軟體設定值) 準則:Test RMSE值最小為最佳模型
類神經網路 預測樣本 96.2%
綜合比較
結論 在某些特定的變數上,在各產業間,確實有顯著性的差異性(流動、速動比率、週轉率、槓桿度…等) 距離危機發生的時間點愈近,將有助於模型的建立 類神經網路所建構的模型較佳(最高:94.2% 、 預測96.2% ) 稅後淨利率%、財務槓桿度、現金流量比率%、營業利益率%、董監質押比率%、總資產週轉率(次)、流動比率% 為主要的影響變數
Data Mining在保險業的應用 保單貸款分析
資料採礦技術已經在企業界開始使用。最為人津津樂道的,當然首推雜貨/量販店的啤酒與紙尿布之間的關聯分析。 我們在此所使用的例子,是台灣本土的保險公司,使用實際資料所作的分析過程。
確認分析目的與範圍 人壽保險公司的主管,有鑑於當今報酬率與存款利率的偏低,想要有效利用該公司積存的大量保險準備金,以達到保險契約、尤其是舊有保險契約當中所隱含承諾的高額預定利率。於是想到使用鼓勵推行保單貸款的方式,將保單現金價值貸放出去,以賺取放款與定存之間的利差。 於是保險公司想要知道,應當對百萬的有效保單客戶當中的哪些人作推廣,可以得到最大的成效。
資料取得、整合與結構設計 保險公司的保單貸款目標相當明確,資料整理的範圍與結構,也多次與公司資訊處的技術人員、行銷與內勤的專業經理協商研究,終於決定了變數的內容、期效、存放格式、以及採礦資料庫的結構,內容包含約70個變數(包括:保單代碼、投保人性別、生日、住址、投保日期、保障期間、主附約保單種類與性質、主附約保障金額、可貸現金價值、已貸金額、貸款利率等等)。這個資料庫的建構並不是一踿可及,而是經過多次的反覆修正與補充,最後所製成的版本。
資料抽樣與分析方法的選擇 由於該分析資料庫的內容,包括該公司數十年來全部的客戶資訊,即使簡化整理完畢之後,該資料庫的龐大仍然超乎預期(約40MB)。抽樣方法在資料採礦是標準的程序之一,用來降低大量重複的資訊,增加採礦效率。只是採礦的抽樣方式,是否針對全部的資訊作1/10的隨機抽樣?還是首先區隔有貸款沒貸款紀錄的不同客戶再作等量的抽樣?還是區隔不同放款利率或不同保單種類的客戶再作等量的抽樣?或者,應當混合前述種種不同區隔標準,再作分組等量的抽樣? 我們在這個部分並沒有標準答案。實際的做法,其實是嘗試各種不同的抽樣方式各做一遍,以探尋最有效的分類抽樣分析結果,好尋找不同種類客戶的明確貸款行為模式。
結果研判與資料充足性的調整 在進行到研判資料庫充足性的階段當中,幾乎都已經完成了整個的資料採礦分析。可是在檢驗該結果時,可能發覺其解釋能力有所不足。這時候為了增加該能力,就有必要重新檢視資料庫的內容是否有所欠缺。 例如是否遺漏重要解釋變數,某些不具解釋能力的變數格式與單位是否需要作些調整,遺漏值的整理是否合理合適,一些變數需不需要先作整合再予以使用等等。 試著調整資料庫變數的結構,或者添加新的解釋變數等手段,都是本步驟的操作內容,藉以增強資料的充足性。
在保單貸款的這個例子當中,資料整理的主要問題發生在許多的遺漏值,以及許多資訊的更新時效不足。 遺漏值大多來自於當初儲存資料時的不夠完備,尤其是對於保戶的教育程度、薪資水準、婚姻狀況等等的資料有許多遺漏之處。
至於更新的時效問題,舉例而言,十年前投保的某客戶,剛剛大學畢業,未婚,薪資低,外務員。這些資訊在十年後的今天是否一樣屬實?在這過去十年當中,公司曾經做過幾次的資料修正?最近一期的修正又是在什麼時候?在此案例當中,因為這個客戶在今天,或許正處於失業的狀態,但是在過去,他很可能曾經昇任公司的高級主管,已經使用躉繳的方式付清所有的保費。 像這樣的資訊,保險公司又是否有保留的紀錄?還是資料庫當中僅儲存當前的靜態資訊而已?像這樣的資訊,對於此人是否屬於保險公司的可放貸客戶,尤其事關客戶的身價與清償能力,這些資訊當然是非常重要的。
結果研判與分析方法上的整合 同前一步驟,在這個步驟當中也是幾乎完成了所有資料的分析。 只是在方法論上的選擇需要謹慎檢視。例如我們可以使用羅吉斯迴歸法,尋找貸款與不貸款的解釋變數與係數,然後利用這些變數的內容,搭配係數的大小與正負值資訊,來分析保戶貸款的行為。 在我們的分析結果,顯示現金價值越高者,貸款的額度越低。這顯然在告訴我們一個事實,就是想要推行保單貸款的話,對於新近保戶推廣,遠比對十年以上老客戶推行的成交機會要大的多。
當然同樣的,我們也可以使用區隔樹法,類神經網路法,甚至於使用簡單的初等統計技巧,或者使用Microsoft Office當中的Excel軟體,即可作出不同層面的資料解析。 有些方法在解釋變數的選取上或者在係數的解讀上,往往多會發生不同程度的差異。這時就有需要研判哪一種分析方法的產出結果比較合理,以及是否可以整合這些不同的方法,以獲得更貼近事實、更有預測能力的結果。
結果研判與分析目的的比對 可想而知的,這一步也跟前兩步驟一樣,已經幾乎完成所有的資料採礦軟體執行程序。不過我們在接受該採礦分析結果之前,都必須經過這一連串的檢驗程序,以確定這樣的結果是合理而且合適的。 在某些情況之下,極有可能是因為方法的偏差,或資料庫的結構錯誤,導致分析的結果與當初設想的目的或方向並不搭調。有時候,甚至於還會發生南轅北轍牛頭不對馬嘴的情況。這時候,分析目的的比對與校正,將變得非常的敏感與攸關。
實務上,在我們保單貸款的分析當中,當初保險公司在提供資料庫時,由於主觀認定貸款額度在一萬元以下者多屬於不值得開發的客戶,因此在資料庫的建構當中,自動排除這些客戶。當然其好處是減低了許多的資料量。不過,其結果在作分析時,由於排除太多重要的資訊(多數潛在的保單貸款客戶屬於萬元以下),導致分析的結果相當的扭曲與荒謬。
結果確認、修正、推論與決策建議 顯然的,經過重重的分工驗證,當進行到結案的結論與建議報告時,特定行業或領域之專業人才、資料倉儲技術人員和數值分析專家必須,一步步的共同檢驗該分析的結果,以及推敲報告的措辭、結論與建議,並且與委託單位主管一一確認措詞的細節。
在本例保單貸款的分析當中,當我們採礦團隊一同檢驗結案報告時,雖然每一分析步驟都已經多次修正,但是我們最終還是發覺,本研究專案在設計上最大的盲點,居然還是出現在結案報告的建議部分。因為依據先前的分析,我們都很清楚離寡居或單身客戶,低所得,高危險等級,保險持續期限短,中低保額者,傾向於行使保單貸款。可是大部分的這一類客戶,在目前不是先前已經作了保單貸款,就是已經脫離該情況。例如資料分析,顯示十年前的某客戶確實有貸款行為。不過這位客戶現在已經結婚,已經進入高所得,已經不再是外務員,保險持續期限也已經進入十年以上,他不再是我們的潛在客戶。
為了尋找更多可能的潛在客戶,我們必須檢視最近新加入的保戶。不幸的是,許多新進保戶的貸款能力仍然相當的薄弱,不但可貸金額低,而且還很可能無力償還,甚至於因此被迫退保。 這時候,保險公司是否仍然要對這一類的新進客戶推行保單貸款,賺取近利,但是立即遭遇到兩個困難:首先是必然會因為必須接受大量的小額貸款而增加處理成本,其次也很有可能導致某些弱勢客戶的無法清償貸款而流失。保單貸款活動應當如何去推行,甚至於是否應當反過來,勸薦公司審慎重視推行保單貸款時的種種可能問題?這在結論的建議上,變成了相當兩難的問題。
問題與討論