資料採礦產業應用實務鄭宇庭教授.

資料採礦產業應用實務鄭宇庭教授

Agenda 台灣客戶成功案例研究 Data Mining的應用 Data Mining在電信業的應用 Data Mining在金融業的應用
探究電信資料異常之研究電信業潛在客戶發掘 Data Mining在金融業的應用 Data Mining在保險業的應用

台灣客戶成功案例研究

台灣客戶成功案例研究-威達電 1997年成立憑著「少量多樣、量身打造」的設計、研發與製造優勢、快速滿足各領域產業對工業電腦之需求，而使該公司成為全球第三大與台灣第二大 2005年轉型為特製電子研發代工服務廠商(UEMS, Unique Electronic Manufacturing Services) 由於經營策略轉變對商業智慧(BI)需求提升

台灣客戶成功案例研究-威達電「商業智慧(BI)的功能，就是從現有的系統中取得有用的決策資訊，轉化為分析性的決策指標，以協助高階主管制定決策」早期建置BI應用成效不彰，其原因：導入成本太高導入時間較長使用介面親和度不足

台灣客戶成功案例研究-威達電重新定位經營策略後，重新嘗試建置，但由於過去經驗，讓使用者對建置BI系統興趣缺缺。
IT部門則以投資最低水準來建置，其中設定低成本、容易導入以及友善使用者介面為導入考量條件硬體方面，則採用配備Intel Xeon處理器的伺服器，滿足BI的運算需求解決方案上，則由台灣瑞智以本身分析工具結合Microsoft SQL Server資料庫投資成本僅須舊專案的十分之一即可運作

台灣客戶成功案例研究-威達電關鍵績效指標(KPI)管理基礎的建立
在未導入BI前，就有關鍵績效指標管理的基礎，因此成為成功導入BI的重要因素在過去，KPI管理報表是由助理透過Excel編製，每當報表完成，所提供之資訊也已經過時而BI系統則是將人工編制報表過程，改以Web化介面結合BI工具產生，不僅易於操作，資訊時間差也可以大幅縮短

台灣客戶成功案例研究-威達電威達電資訊服務處協理蔡本源說：「IT專案一項所費不貲，效益又很難量化，導致使用者缺乏信心，但是微軟的解決方案不僅深具成本效益，還能快速導入、輕鬆上手，不一定要花大錢也能得到很大效果，使重新推動的BI專案能重拾使用者的信心。」

台灣客戶成功案例研究-威達電舊版SQL Server在BI應用僅提供平台，能需外掛多功能元件才可開發出適合的BI應用程式；而SQL Server 2005則整合更多工具及發展出更成熟的功能整體功能上，可與領導品牌BI解決方案並駕齊驅；而投資成本上卻相對更底，滿足威達電以最少投資達成做大效益的目標

45% 36% 台灣在軟體開發平台與工具使用現況軟體開發工具 Web Services解決方案 Source: WW DevTracker
PC Week 資訊傳真 Nov.29, 2004, 第734期

台灣在資料庫與商業智慧平台使用現況 57% 7% 5% SQL Server 在台灣近半年市場佔有率成長 14 百分點 !
2005/1 台灣資料庫使用市佔率 SQL Server 在台灣近半年市場佔有率成長 14 百分點 ! Source: IDC Server Tracker 2005/1 (Install Base Share)

台灣客戶成功案例-元大京華證券台灣証券業領導廠商 IT Requirements Visual Studio Team System
Time-to-Market Solutions 整合的開發環境 Visual Studio Team System 大幅簡化開發時間提昇專案管理績效 Excellent team collaboration

台灣客戶成功案例-長榮航空台灣航空業領導廠商 IT requirements Visual Studio Team System
關鍵性任務的平台與高品質自動的 Work Load Test Visual Studio Team System 標準化開發過程 Software Quality Metrics 正式上線前的效能測試與保證

台灣客戶成功案例-技嘉科技台灣主機板的領導廠商 SQL Server 2005 效能提升 159%
Process 1 億筆資料的 cube, SQL Server 2000 需要 70 分鐘, 但, SQL Server 2005 只需要 40 分鐘 SQL Server 2005 為技嘉每年節省 1,095 小時

台灣客戶成功案例-台新銀行擁有廣大客戶群的台灣領導銀行 SQL Server 2005 64-bit 提供台新 9.5 倍更快的決策
Upgrade 6 億筆的資料 DB 至 SQL server 2005, 只花費 10 分鐘

Data Mining的應用

Data Mining的應用 Customer-focused Operations-focused Research-focused
●Life-time Value ●Market-Basket Analysis ●Profiling & Segmentation ●Retention ●Target Market ●Acquisition ●Knowledge Portal ●Cross-Selling ●Campaign Management ●E-Commerce ●Profitability Analysis ●Pricing ●Fraud Detection ●Risk Assessment ●Portfolio Management ●Employee Turnover ●Cash Management ●Production Efficiency ●Network Performance ●Manufacturing Processes ●Combinatorial Chemistry ●Genetic Research ●Epidemiology

Data Mining的應用 20 40 60 80 % of Respondents Customer profiling
20 40 60 80 % of Respondents Customer profiling Targeted marketing Market basket analysis Attrition management Fraud detection Credit risk analysis Type of Application

Data Mining在各產業的應用金融服務業客戶貢獻度分析、信用評分、風險評估、客戶區隔、交叉行銷等。保險業電信業
顧客貢獻度分析、信用評分、風險評估、客戶區隔、交叉行銷、客戶流失分析和詐欺偵測等。電信業顧客貢獻度分析、信用評分、客戶區隔、交叉行銷、客戶流失分析、銷售預測和詐欺偵測等。

Data Mining在各產業的應用製造業零售業生物科技、醫療保健、航太空業、環境、法律等
客戶貢獻度分析、品質管制、行銷績效分析、生產分析和存貨分析等。零售業客戶忠誠度、客戶區隔、購物籃分析、定價分析、交叉行銷和銷售預測等。生物科技、醫療保健、航太空業、環境、法律等

Data Mining在電信業的應用探究電信資料異常之研究

盜撥行為的分析近年來在電信業中發展出許多有效但昂貴的硬體防盜設備，因此並不是所有的電信業者都能夠即時的採用。
由於盜撥行為氾濫，會造成基地台及設備佔用的問題，因而影響到正常用戶的使用權利。若盜撥行為無法有效解決，將會造成舊用戶的流失，更會影響到開發新客戶的業績。電信業者必須加派許多人力來處理這些被盜撥客戶的抱怨。由於這些硬體設備其功能完全專注於偵測盜撥，而無法針對某些特定的用戶族群去做行為上的分析，以幫助策略上的制定與調整。

電信詐欺電話盜打的兩種類型電話盜撥約占業者總體通話費收入的2%左右。技術性盜打（Cloning）
利用破解技術或電子方式，傳送出一個可被系統認為有效的帳號，然後無限制地進行「暢談」。文件性盜打（Subscription Fraud）利用人頭帳號或無效、偽造的身份證件，來申請一個正式有效的帳號，從此坐享「無溝通障礙」的境界。電話盜撥約占業者總體通話費收入的2%左右。若以平均每個用戶通話費80美元，每個系統業者共有10萬名用戶來看，這將使系統業者每年短收192萬美金的進帳。

研究系統架構與流程第一階段原始電信資料檔資料轉換訓練及測試歷史資料庫資料庫計算資訊含量設定門檻值
標示出正常與異常並找出特徵屬性設定門檻值第一階段

資料前置處理倒傳遞類神經網路異常分析結果新資料庫第二階段第三階段

原始資料之樣式 ID Time Called Calling OPC DPC Length 1 2000/11/12 09:13:02
2000 3000 13 2 2000/11/12 20:32:16 9000 78 3 2000/11/12 18:11:49 4000 157 4 2000/11/12 07:50:05 53 5 2000/11/12 11:59:59 8000 71 6 2000/11/12 12:45:01 66 7 2000/11/12 06:20:11 19 8 2000/11/12 23:34:45 183 9 2000/11/12 09:44:42 344 10 2000/11/12 19:12:36 7000 98 … ……

演算法詳細步驟計算歷史資料庫資訊含量的平均值及標準差目的是要分析電信資料的異常情況，因此如何有效找出異常區間便成為最主要工作之一。
利用歷史資料，計算出其資訊含量的平均值及標準差，並以此當作一個正常區段該有的資訊含量。接著便可把這個資訊含量當作評估指標，用來找出現有資料庫中，那些區間是異常的情況。當歷史資料庫的資料筆數越多時，所計算出來的資訊含量也會越大。

資訊含量與資料庫筆數之比較圖

標示出異常區間及特徵屬性當有了歷史資料庫資訊含量的平均值與標準差後，我們便可利用它來標示現有資料庫的異常區間。
由於整個資料庫的資訊含量是由六個屬性的資訊含量加總而來的，因此若現在資料庫的資訊含量大於3.5，則表示這六個屬性必定有某幾個資訊含量值偏高，而影響了整個資料庫；反之，若現在資料庫的資訊含量小於2.5，則表示這六個屬性必定有某幾個資訊含量值偏低。

各屬性的平均值與標準差屬性名稱平均值標準差 Time 0.486 0.021 Called 0.668 0.036 Calling 0.734 0.042 OPC 0.268 0.016 DPC 0.302 0.018 Length 0.528 0.024

某一電信資料庫異常區間的標示結果（平均值為3，標準差為0.5）
編號區間各屬性的資訊含量正常或異常特徵屬性 Time Called Calling DPC OPC Length 1 0.482 0.674 0.693 0.260 0.287 0.551 正常 NULL 2 0.502 0.694 0.983 0.487 0.316 0.549 Calling DPC 3 0.746 0.682 0.774 0.282 0.309 0.793 Time Length 4 0.467 0.754 0.283 0.301 0.543 5 0.691 0.709 0.267 0.297 0.535 6 0.469 0.429 0.503 0.263 0.290 0.515 Calling Called 7 0.499 0.649 0.698 0.258 0.509 8 0.471 0.642 0.497 0.257 0.293 0.239 Calling Length 9 0.470 0.701 0.727 0.272 0.511 10 0.638 0.269 0.319 0.527 ……

設定門檻值，增加或刪除異常區間經由門檻值(Threshold)的設定，將可以依照每個使用者的需求(容忍範圍)，來增加或減少異常區間的個數。而門檻值所代表的意義，也可以說是調整標準差的大小。例如前述例子所提到的歷史資料庫其平均值及標準差分別為3及0.5，而其預設的門檻值就是16.67%（0.5 / 3 * 100%）。

實證研究與結果分析可分為三大部分：全部資料庫分析、特定族群分析與及單一樣式分析。
希望能夠讓不同的使用者，根據他們不同的需求，藉由不同的分析方式，以找出隱藏在資料庫中的資訊，讓使用者能夠針對這些資訊做進一步的分析。

全部資料庫之分析在全部資料庫的分析中，本研究先從目前所擁有的電信資料庫中取出54000筆通話記錄來作為實驗的資料。
將這些資料分成三部份：歷史資料庫、訓練資料庫與測試資料庫。

不同隱藏層的測試

不同學習速率的測試

根據原始資料的顯示，本研究發現在區段2、區段4及區段10中，其Called與Calling屬性所出現的電話號碼幾乎都是屬於同一家電信公司的門號，因此可以看出在這些異常區段中隱含了「網內互打增加」的資訊，而造成此異常的原因可能是此家電信公司推出了網內互打半價或者網內互打免費的行銷策略。也發現在區段6及區段8中，其Time屬性的資訊含量突然地減少，而造成這兩個區段異常的主要原因是，在同一個時間中連續出現了2~3筆通話記錄，有時甚至出現了6~7筆，這個異常可以告知管理者在這些區段中是屬於通話的尖峰時間，此時管理者可以根據這些通話量的多寡，考慮是否必須增加硬體設備，以應付尖峰時間的通話量，才不會造成用戶的抱怨。

特定族群之分析將針對兩個不同的族群組合來做分析。
首先先利用SQL的指令，將所選擇的特定族群屬性從資料庫中挑選出來，並把它儲存在一個新的資料表中。當準備好所需資料後，本研究便可以利用歷史資料庫來算出其資訊含量的平均值及標準差。有了正常與異常的區段後，接著就可以透過本系統將其轉換成特定格式的訓練資料檔及測試資料檔，並標示出哪些記錄是正常或異常，然後便可繼續進行類神經網路的訓練與測試。

根據原始資料的顯示，可以發現在區段1及區段3中，其Called與Calling屬性所出現的電話號碼幾乎都是屬於同一家電信公司的門號，因此可以看出在這兩個異常區段中隱含了「網內互打增加」的資訊，而造成此異常的原因可能是此家電信公司推出了網內互打半價或者網內互打免費等行銷策略。在區段5中，其Called屬性的資訊含量突然地降低，經過分析後，可以發現造成此區段異常的通話記錄幾乎都是A電信公司的門號，因此，可以發現此公司的用戶常常與A電信公司的用戶有通話的往來，所以此公司也許可以找A電信公司共同推出一些新的方案，以吸引更多的用戶加入。

單一樣式之分析研究可以發現在某些區段中，其Called屬性所出現的電話號碼幾乎都是同一位使用者，而且這個電話號碼並非該電信公司的門號，因此便可以針對這個用戶做一些特別的行銷。本研究也發現在某區段中，其OPC與DPC突然出現了與平常不一樣的情況，此時我們就必須要特別注意，因為這些通話可能是一個盜撥的情況，或者是因為此用戶離開了資料所在地區所造成的結果。

結論本研究希望能夠藉由分析龐大的電信通話記錄，進而找出其異常的部分，再經由特徵屬性來幫助分析這些異常的原因，以幫助電信業者有效地處理這些龐大的通話記錄，甚至對於如何訂定其行銷策略能有所貢獻。經由不同的分析方式來驗證本研究方法的可行性，我們發現本系統的確能夠找出資料庫中異常的區間，並提供有效的資訊給予使用者，相信對於偵測資料異常方面的相關研究應該會有所幫助。

Data Mining在電信業的應用電信業潛在客戶發掘

研究動機由於電信業市場蓬勃發展，在台灣的電信自由化風潮下，產業的開放帶動了台灣電信產業的成長，在如此自由化的啟動之下衍生出的廣大商機成為了全台灣的焦點，也因此電信產業的特性與行銷策略的制定跟著成為大家所關注的議題。

研究目的本研究利用Data mining技術結合統計抽樣方法，以集群分析、判別分析、決策樹等統計相關分析方法來為電信業帶來更深入的資訊，利用有手機顧客群之滿意度及忠誠度項目進行分群，來發掘無手機顧客群中的潛在顧客

研究架構圖相關專業領域知識收集相關資料、資訊及技術資料型態判斷研究主題之建立資料淨化、處理資料抽樣
主成分分析、因素分析、集群分析、迴歸樹分析集群分析、羅吉斯迴歸分析、分類樹分析利用判別分析建立判別模型找出各群特性檢驗模型決策人員離散資料連續資料模型判斷不恰當模型判斷正確

研究方法集群分析(Cluster Analysis) 判別分析(Discriminant Analysis)
集群分析法是一種劃分方法，目的在將一些事物歸併在一起，利用群體中各事物都具有相同的特性，而在群體與群體之間卻有顯著的差異。判別分析(Discriminant Analysis) 所謂判別分析法，是在已知的分類之下，一旦遇到有新的樣本時，可以利用此法選定一判別標準，以判定該將新樣本放置於那個類群中。

研究方法 CHAID決策樹決策樹是從一個或多個預測變數中，針對類別應變數的階級，預測案例或物件的關係；分類樹的目標是針對類別應變數加以預測或解釋反應結果。

研究流程圖資料抽樣比較母體與樣本之間結構是否一致利用樣本進行集群分析決定最佳分群利用判別分析找出判別模型根據特性做建議
提供給系統廠商做決策母體代入模型，檢驗抽樣樣本模型判斷不恰當兩者結構不一致一致顧客資料

採礦模型檢視器 Cluster Vabiable1 Vabiable2 Vabiable3 1 2 3 4 5

採礦模型檢視器檢視Cluster的比例及其條件式觀察屬於該節點之觀測值滑鼠右鍵 Vabiable3 Vabiable2

採礦模型檢視器此節點中集群1=1的比例有59.59% 集群1=0的比例有40.40% 其特性為職業=1 年齡=2 籍貫=1
職業=1, 年齡=2, 籍貫=1 此節點中集群1=1的比例有59.59% 集群1=0的比例有40.40% 其特性為職業=1 年齡=2 籍貫=1

模型相依性網路年齡性別教育程度職業籍貫各群各變數與預測變數間的關聯性弱自變數預測變數強

職業性別年齡籍貫戶籍教育程度比例表現，其數字表示最大之比例男女

群集圖表在群集2中，則無”0-1 Miles”的資料在群集3中 ”0-1 Miles”的比例最高，有74%

群集設定檔 value1 value2 value3 value4 value5 missing 說明：了解各群集中，各變數的分佈比例，以圖中為例，群集2中，距離為”value1”的有0.4%、 ”value2”的有25.7%、 ”value3”的有13.6%、 ”value4”的有32%、 ”value5”的有28.3%

群集特性 Variables 說明：針對各群集中，所有自變數之各選項，其分佈機率值，可看其各群集中，各變數主要分佈比例情形

群集辨識說明：群集間兩兩比較，了解各變數其值在兩群間之比重分數，以圖中為例，Age在47.7~95之間者，在群集2中的得分為100，而24~47.7在群集1中的分數為100

研究方法抽樣由母體抽出0.5%的樣本由基本資料檢驗母體與樣本結構的相似性

母體樣本結構比較—性別

母體樣本結構比較—年齡

母體樣本結構比較—教育程度

母體樣本結構比較—籍貫

母體樣本結構比較—職業

母體樣本結構比較—戶籍（北）

母體樣本結構比較—戶籍（中）

母體樣本結構比較—戶籍（南）

母體樣本結構比較—戶籍（東、澎）

步驟一、K-means集群分析法找出最佳集群數
F值三群四群五群六群七群八群清晰滿意 45.413 70.408 67.826 61.356 56.862 付費合理 94.828 56.357 71.916 68.875 78.983 62.052 服務效率服務人員整體服務更換系統 5.918 5.228 3.848 7.156 4.949 5.124 手機品牌更換手機 5.144 1.928 1.622 6.138 3.342 7.986 手機外型 47.872 73.517 65.956 58.504 47.268 手機功能 17.568 56.036 72.058 74.160 手機整體 31.362 83.205 電磁波 90.124

步驟二、判別分析計算分群正確率正確率 Percent 集群一集群二集群三集群四集群五 100.00 200 97.93 284 4
97.93 284 4 2 91.42 11 213 9 99.78 1 462 98.50 131 Total 97.80 295 218 475

步驟三、針對各群特色加以命名引領風潮者流行擁護者健康主義者中庸型顧客挑剔型顧客清晰滿意滿意非常滿意非常不滿意付費合理
服務效率服務人員整體服務手機品牌摩托羅拉、易利信、諾基亞其他品牌手機外型普通手機功能手機整體電磁波不太擔心一點不擔心有點擔心非常擔心

交叉分析在這五群中潛在顧客大都集中在男生，其中只有中庸型顧客群是集中在女生的比例較多。性別引領風潮流行擁護健康主義中庸型挑剔型
總計男 105 179 133 231 95 743 52.50% 61.72% 57.08% 49.89% 71.43% 女 111 100 232 38 576 47.50% 38.28% 42.92% 50.11% 28.57% 200 290 233 463 1319 在這五群中潛在顧客大都集中在男生，其中只有中庸型顧客群是集中在女生的比例較多。

交叉分析 20-29歲：引領風潮者、健康主義者。 30-39歲：流行擁護者、中庸型顧客、挑剔型顧客。年齡引領風潮流行擁護健康主義
總計 20歲以下 13 18 34 36 9 110 6.50% 6.21% 14.59% 7.78% 6.77% 20-29歲 80 85 77 142 42 426 40.00% 29.31% 33.05% 30.67% 31.58% 30-39歲 64 115 61 149 44 433 32.00% 39.66% 26.18% 32.18% 33.08% 40-49歲 38 52 109 33 274 19.00% 17.93% 18.03% 23.54% 24.81% 50-59歲 4 16 25 3 2.00% 5.52% 5.58% 5.40% 2.26% 60以上 1 6 2 15 0.50% 1.38% 2.58% 0.43% 1.50% 200 290 233 463 133 1319 20-29歲：引領風潮者、健康主義者。 30-39歲：流行擁護者、中庸型顧客、挑剔型顧客。

交叉分析教育程度為高中高職程度：流行擁護者、健康主義者。教育程度為大專及以上程度：引領風潮者、中庸型顧客、挑剔型顧客。教育程度
總計國中及以下 20 48 50 49 13 180 10.00% 16.55% 21.46% 10.58% 9.77% 高中高職 57 122 98 186 41 504 28.50% 42.07% 42.06% 40.17% 30.83% 大專及以上 123 120 85 228 79 635 61.50% 41.38% 36.48% 49.24% 59.40% 200 290 233 463 133 1319 教育程度為高中高職程度：流行擁護者、健康主義者。教育程度為大專及以上程度：引領風潮者、中庸型顧客、挑剔型顧客。

交叉分析各集群在籍貫上的分佈都集中在本省閩南的人為主。籍貫引領風潮流行擁護健康主義中庸型挑剔型總計客家 35 24 12
44 22 137 17.50% 8.28% 5.15% 9.50% 16.54% 本省閩南 151 236 186 331 91 995 75.50% 81.38% 79.83% 71.49% 68.42% 外省籍 13 30 79 15 172 6.50% 10.34% 15.02% 17.06% 11.28% 原住民 1 9 5 0.50% 0.00% 1.94% 3.76% 200 290 233 463 133 1319 各集群在籍貫上的分佈都集中在本省閩南的人為主。

交叉分析職業的分群中以在民營企業之白領階級及勞力工作者為主職業為民營企業白領階級者：引領風潮者、中庸型顧客、挑剔型顧客。
流行擁護健康主義中庸型挑剔型總計學生 24 15 44 43 7 133 12.00% 5.17% 18.88% 9.29% 5.26% 家庭主婦 14 22 53 2 115 7.00% 8.28% 9.44% 11.45% 1.50% 軍公教 17 18 16 62 10 123 8.50% 6.21% 6.87% 13.39% 7.52% 民營企業白領上班族 64 81 41 110 38 334 32.00% 27.93% 17.60% 23.76% 28.57% 專業技術人員 3 0.00% 0.65% 勞力工作者 51 102 75 77 37 342 25.50% 35.17% 32.19% 16.63% 27.82% 自營商 32 29 84 19 188 11.03% 12.45% 18.14% 14.29% 失業退休 5 4 42 2.50% 2.41% 1.72% 5.18% 其他 1 11 0.50% 3.79% 0.86% 1.51% 8.27% 200 290 233 463 1319 職業為民營企業白領階級者：引領風潮者、中庸型顧客、挑剔型顧客。職業為勞力工作者：流行擁護者、健康主義者。

交叉分析本研究將各縣市分為北、中、南、東四區。北部為台北市、基隆市、新竹市、台北縣、宜蘭縣、桃園縣、新竹縣、苗栗縣。
戶籍引領風潮流行擁護健康主義中庸型挑剔型總計北部地區 86 130 79 209 70 574 43.00% 44.83% 33.91% 45.14% 52.63% 中部地區 54 50 65 111 21 301 27.00% 17.24% 27.90% 23.97% 15.79% 南部地區 59 107 78 137 38 419 29.50% 36.90% 33.48% 29.59% 28.57% 東部地區 1 3 11 6 4 25 0.50% 1.03% 4.72% 1.30% 3.01% 200 290 233 463 133 1319 本研究將各縣市分為北、中、南、東四區。北部為台北市、基隆市、新竹市、台北縣、宜蘭縣、桃園縣、新竹縣、苗栗縣。中部為台中市、台中縣、彰化縣、南投縣、雲林縣。南部為高雄市、嘉義市、台南市、嘉義縣、台南縣、高雄縣、屏東縣、澎湖縣。東部為台東縣、花蓮縣。各集群在戶籍上的分佈都集中在北部地區的人為主。

結論與建議透過分群模式，針對已分群樣本基本資料建立判別模型，將沒手機的樣本放入判別模型判別，找出最有可能是屬於哪一群的潛在客戶，
配合專業知識，提出行銷建議；本研究將各群針對特性加以命名，如下：引領風潮者流行擁護者健康主義者中庸型顧客挑剔型顧客

合弦鈴聲、聊天室、購物指南、影像寫真…等的功能
集群一：引領風潮者學生台北縣（63﹪）家庭主婦嘉義市（82﹪）彰化縣（29﹪）上班族勞工苗栗縣（47﹪）台南市、20~29歲（38﹪）特色：新穎的外觀合弦鈴聲、聊天室、購物指南、影像寫真…等的功能行銷建議：只要有夠酷、夠炫、有別於他人，獨樹一格（會唱歌、彩色螢幕、WAP等）的手機，便可吸引他們的目光。

此一族群的消費者選擇三大知名品牌（摩托羅拉、易利信、諾基亞），只要系統廠商與手機業者時時推出三大品牌新手機與門號，便可打動此族群消費者的心。
集群二：流行擁護者學生高雄市（50﹪）上班族台南市（50﹪）桃園縣（33﹪）勞工台北市、高中高職（36﹪）基隆市、20歲以下（46﹪）基隆市、50~59歲（33﹪）台中市、外省籍（100﹪）台南市、40~49歲（92﹪）台北縣、客家籍、男性、20~29歲（44﹪）特色：品牌知名度高 WAP上網、備忘錄功能全球定位式系統行銷建議：此一族群的消費者選擇三大知名品牌（摩托羅拉、易利信、諾基亞），只要系統廠商與手機業者時時推出三大品牌新手機與門號，便可打動此族群消費者的心。

可結合具有健康概念的手機，撘配系統門號，推出以減低電磁波對人體的傷害為主軸的行銷策略，較能吸引健康主義者的消費者。
集群三：健康主義者學生台北市（57﹪）家庭主婦台南市（39﹪）上班族宜蘭縣（42﹪）勞工高雄市、國中以下（30﹪）台中市、本省閩南籍（39﹪）台北縣、客家籍、男性（48﹪）台北縣、外省籍、 40~49歲（100﹪）女性、30~39歲（60﹪）特色：操作簡便親子互動式手機行銷建議：可結合具有健康概念的手機，撘配系統門號，推出以減低電磁波對人體的傷害為主軸的行銷策略，較能吸引健康主義者的消費者。

建議業者在手機的促銷上應多考慮提供其他品牌的手機，以因應此一集群消費者之需求。
集群四：中庸型顧客學生桃園縣（79﹪）家庭主婦台北市（50﹪）高雄市（65﹪）台中市（74﹪）雲林縣（64﹪）上班族台北市（36﹪）高雄市（54﹪）新竹縣（92﹪）勞工宜蘭縣（88﹪）台北市、國中以下（44﹪）台北縣、外省籍、 20歲以下（100﹪）特色：堅固耐用的款式手機的防摔、防震、防水功能行銷建議：建議業者在手機的促銷上應多考慮提供其他品牌的手機，以因應此一集群消費者之需求。

如增設基地台以加強收訊品質、降低通話費率、增設服務站、加強員工訓練以提昇其工作效率與服務態度、品質。
特色： WAP上網投資理財網路下單行銷建議：如增設基地台以加強收訊品質、降低通話費率、增設服務站、加強員工訓練以提昇其工作效率與服務態度、品質。手機廠商在外型的設計上，應增加其外型的多樣性。集群五：挑剔型顧客專業人員（43﹪）學生南投縣（56﹪）上班族新竹縣（50﹪）勞工高雄市、大專以上（56﹪）

Data Mining在金融業的應用在財務危機預警模式之應用

研究背景與動機在景氣低迷的影響下，使得許多營運不良的公司，陸續爆發財務危機，尤以87年底最為嚴重。
提早發現惡化的徵兆，將能降低財務危機事件發生的可能性，進而規避風險。除了自身營運不佳外，本身內部監理制度的不健全以及股權結構的問題，也是構成財務危機發生的原因之一。

研究目的找出真正影響危機發生的顯著變數。
採用資料採礦技術，分別建構危機前一年、危機前二年以及危機前三年之財務預警模式。藉以幫助企業、投資者，將損失減至最低，冀能提供政府單位作為決策之參考透過決策樹的方法進行變數之間互動情形。

研究流程問題認知了解資料確認研究問題蒐集資料清理資料與分割決策樹蒐集相關文獻資料準備羅吉斯模型類神經模型模型評估與比較
結論與建議建立模型成效評估規劃部署

研究範圍與對象研究對象:1996年至2002年台灣扣除金融業與證券業之上市公司
危機時點: 1999年至2002年間有發生財務危機公司特性之公司，分別蒐集該公司於發生危機時間點之前3年的資料依據產業別以1:1的配對方式進行樣本配置，總樣本為118家資料來源: 台灣新報文化事業股份有限公司資料庫上市公司公開說明書

研究架構財務變數股權結構董事會結構決策樹羅吉斯模型類神經模型模型評估與比較平均數檢定關聯性分析
挑選後的財務變數、股權結構變數、董事會變數決策樹平均數檢定關聯性分析標準化、因素分析羅吉斯模型類神經模型模型評估與比較

研究變數

敘述性統計

風險– 危機前一年水泥紡織電機玻璃鋼鐵橡膠營造航運獲利能力成長力週轉率流動性現金流量負債或費用狀況負債或
槓桿程度橡膠營造航運

風險– 危機前二年食品電機橡膠營造週轉率流動性獲利能力成長力負債或費用狀況塑膠、汽車現金流量槓桿程度成長力
水泥、化學航運流動性獲利能力成長力食品負債或費用狀況塑膠、汽車現金流量槓桿程度電機成長力電器、玻璃流動性橡膠流動性獲利能力成長力負債或費用狀況槓桿程度營造

整體而言,以水泥業、營建業以及航運業的表現最差
風險– 危機前三年流動性週轉率現金流量水泥獲利能力食品成長力塑膠紡織、電器玻璃負債或費用狀況電機、鋼鐵橡膠航運營造槓桿程度電子整體而言,以水泥業、營建業以及航運業的表現最差

最後篩選之變數

因素分析

危機前一年

危機前二年

危機前三年

羅吉斯迴歸因素篩檢變數關聯性篩檢變數 Enter Forward-LR

類神經網路倒傳遞類神經網路(MLP) 隱藏層神經元:2p-2,2p-1,2p,2p+1,2p+2 學習率:0.01,0.05,0.1
動量(Momentun):0.3(軟體設定值) 準則:Test RMSE值最小為最佳模型

類神經網路預測樣本 96.2%

綜合比較

結論在某些特定的變數上，在各產業間，確實有顯著性的差異性(流動、速動比率、週轉率、槓桿度…等)
距離危機發生的時間點愈近，將有助於模型的建立類神經網路所建構的模型較佳(最高:94.2% 、預測96.2% ) 稅後淨利率%、財務槓桿度、現金流量比率%、營業利益率%、董監質押比率%、總資產週轉率(次)、流動比率% 為主要的影響變數

Data Mining在保險業的應用保單貸款分析

資料採礦技術已經在企業界開始使用。最為人津津樂道的，當然首推雜貨/量販店的啤酒與紙尿布之間的關聯分析。
我們在此所使用的例子，是台灣本土的保險公司，使用實際資料所作的分析過程。

確認分析目的與範圍人壽保險公司的主管，有鑑於當今報酬率與存款利率的偏低，想要有效利用該公司積存的大量保險準備金，以達到保險契約、尤其是舊有保險契約當中所隱含承諾的高額預定利率。於是想到使用鼓勵推行保單貸款的方式，將保單現金價值貸放出去，以賺取放款與定存之間的利差。於是保險公司想要知道，應當對百萬的有效保單客戶當中的哪些人作推廣，可以得到最大的成效。

資料取得、整合與結構設計保險公司的保單貸款目標相當明確，資料整理的範圍與結構，也多次與公司資訊處的技術人員、行銷與內勤的專業經理協商研究，終於決定了變數的內容、期效、存放格式、以及採礦資料庫的結構，內容包含約70個變數（包括：保單代碼、投保人性別、生日、住址、投保日期、保障期間、主附約保單種類與性質、主附約保障金額、可貸現金價值、已貸金額、貸款利率等等）。這個資料庫的建構並不是一踿可及，而是經過多次的反覆修正與補充，最後所製成的版本。

資料抽樣與分析方法的選擇由於該分析資料庫的內容，包括該公司數十年來全部的客戶資訊，即使簡化整理完畢之後，該資料庫的龐大仍然超乎預期（約40MB）。抽樣方法在資料採礦是標準的程序之一，用來降低大量重複的資訊，增加採礦效率。只是採礦的抽樣方式，是否針對全部的資訊作1/10的隨機抽樣？還是首先區隔有貸款沒貸款紀錄的不同客戶再作等量的抽樣？還是區隔不同放款利率或不同保單種類的客戶再作等量的抽樣？或者，應當混合前述種種不同區隔標準，再作分組等量的抽樣？我們在這個部分並沒有標準答案。實際的做法，其實是嘗試各種不同的抽樣方式各做一遍，以探尋最有效的分類抽樣分析結果，好尋找不同種類客戶的明確貸款行為模式。

結果研判與資料充足性的調整在進行到研判資料庫充足性的階段當中，幾乎都已經完成了整個的資料採礦分析。可是在檢驗該結果時，可能發覺其解釋能力有所不足。這時候為了增加該能力，就有必要重新檢視資料庫的內容是否有所欠缺。例如是否遺漏重要解釋變數，某些不具解釋能力的變數格式與單位是否需要作些調整，遺漏值的整理是否合理合適，一些變數需不需要先作整合再予以使用等等。試著調整資料庫變數的結構，或者添加新的解釋變數等手段，都是本步驟的操作內容，藉以增強資料的充足性。

在保單貸款的這個例子當中，資料整理的主要問題發生在許多的遺漏值，以及許多資訊的更新時效不足。
遺漏值大多來自於當初儲存資料時的不夠完備，尤其是對於保戶的教育程度、薪資水準、婚姻狀況等等的資料有許多遺漏之處。

至於更新的時效問題，舉例而言，十年前投保的某客戶，剛剛大學畢業，未婚，薪資低，外務員。這些資訊在十年後的今天是否一樣屬實？在這過去十年當中，公司曾經做過幾次的資料修正？最近一期的修正又是在什麼時候？在此案例當中，因為這個客戶在今天，或許正處於失業的狀態，但是在過去，他很可能曾經昇任公司的高級主管，已經使用躉繳的方式付清所有的保費。像這樣的資訊，保險公司又是否有保留的紀錄？還是資料庫當中僅儲存當前的靜態資訊而已？像這樣的資訊，對於此人是否屬於保險公司的可放貸客戶，尤其事關客戶的身價與清償能力，這些資訊當然是非常重要的。

結果研判與分析方法上的整合同前一步驟，在這個步驟當中也是幾乎完成了所有資料的分析。
只是在方法論上的選擇需要謹慎檢視。例如我們可以使用羅吉斯迴歸法，尋找貸款與不貸款的解釋變數與係數，然後利用這些變數的內容，搭配係數的大小與正負值資訊，來分析保戶貸款的行為。在我們的分析結果，顯示現金價值越高者，貸款的額度越低。這顯然在告訴我們一個事實，就是想要推行保單貸款的話，對於新近保戶推廣，遠比對十年以上老客戶推行的成交機會要大的多。

當然同樣的，我們也可以使用區隔樹法，類神經網路法，甚至於使用簡單的初等統計技巧，或者使用Microsoft Office當中的Excel軟體，即可作出不同層面的資料解析。
有些方法在解釋變數的選取上或者在係數的解讀上，往往多會發生不同程度的差異。這時就有需要研判哪一種分析方法的產出結果比較合理，以及是否可以整合這些不同的方法，以獲得更貼近事實、更有預測能力的結果。

結果研判與分析目的的比對可想而知的，這一步也跟前兩步驟一樣，已經幾乎完成所有的資料採礦軟體執行程序。不過我們在接受該採礦分析結果之前，都必須經過這一連串的檢驗程序，以確定這樣的結果是合理而且合適的。在某些情況之下，極有可能是因為方法的偏差，或資料庫的結構錯誤，導致分析的結果與當初設想的目的或方向並不搭調。有時候，甚至於還會發生南轅北轍牛頭不對馬嘴的情況。這時候，分析目的的比對與校正，將變得非常的敏感與攸關。

實務上，在我們保單貸款的分析當中，當初保險公司在提供資料庫時，由於主觀認定貸款額度在一萬元以下者多屬於不值得開發的客戶，因此在資料庫的建構當中，自動排除這些客戶。當然其好處是減低了許多的資料量。不過，其結果在作分析時，由於排除太多重要的資訊（多數潛在的保單貸款客戶屬於萬元以下），導致分析的結果相當的扭曲與荒謬。

結果確認、修正、推論與決策建議顯然的，經過重重的分工驗證，當進行到結案的結論與建議報告時，特定行業或領域之專業人才、資料倉儲技術人員和數值分析專家必須，一步步的共同檢驗該分析的結果，以及推敲報告的措辭、結論與建議，並且與委託單位主管一一確認措詞的細節。

在本例保單貸款的分析當中，當我們採礦團隊一同檢驗結案報告時，雖然每一分析步驟都已經多次修正，但是我們最終還是發覺，本研究專案在設計上最大的盲點，居然還是出現在結案報告的建議部分。因為依據先前的分析，我們都很清楚離寡居或單身客戶，低所得，高危險等級，保險持續期限短，中低保額者，傾向於行使保單貸款。可是大部分的這一類客戶，在目前不是先前已經作了保單貸款，就是已經脫離該情況。例如資料分析，顯示十年前的某客戶確實有貸款行為。不過這位客戶現在已經結婚，已經進入高所得，已經不再是外務員，保險持續期限也已經進入十年以上，他不再是我們的潛在客戶。

為了尋找更多可能的潛在客戶，我們必須檢視最近新加入的保戶。不幸的是，許多新進保戶的貸款能力仍然相當的薄弱，不但可貸金額低，而且還很可能無力償還，甚至於因此被迫退保。
這時候，保險公司是否仍然要對這一類的新進客戶推行保單貸款，賺取近利，但是立即遭遇到兩個困難：首先是必然會因為必須接受大量的小額貸款而增加處理成本，其次也很有可能導致某些弱勢客戶的無法清償貸款而流失。保單貸款活動應當如何去推行，甚至於是否應當反過來，勸薦公司審慎重視推行保單貸款時的種種可能問題？這在結論的建議上，變成了相當兩難的問題。

問題與討論

資料採礦產業應用實務鄭宇庭教授.

Similar presentations

Presentation on theme: "資料採礦產業應用實務鄭宇庭教授."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

資料採礦產業應用實務 鄭宇庭 教授.

Similar presentations

Presentation on theme: "資料採礦產業應用實務 鄭宇庭 教授."— Presentation transcript:

Similar presentations

About project

反馈

資料採礦產業應用實務鄭宇庭教授.

Presentation on theme: "資料採礦產業應用實務鄭宇庭教授."— Presentation transcript: