永續運輸資訊系統 -交通事故資料分析研究 周家慶 高級分析師 交通部運輸研究所
簡報內容 背景 交通事故資料庫與地理資訊系統 資料採礦(Data Mining) Oracle 之資料採礦模組 試作過程 結論與建議 Oracle Data Mining (ODM) 試作過程 結論與建議
背景 運輸研究所進行 「交通事故資料庫系統」研究及其分析與設計 評估交通事故分析所需之資料庫來源探討,包括死因資料庫、健保資料庫、保險資料庫、事故資料庫等。 「交通事故地理資訊系統資料庫建置」 進行國省道與臺北市事故資料之實作。 本研究重點在探討各種資料庫之龐大資料量狀況下,如何利用資料採礦架構進行事故資料分析工作。 本架構將為永續運輸資訊系統中之基本資料庫,而永續運輸資訊系統之發展目的乃是希望成為政府從事交通施政成效評估、區域交通建設發展比較與交通成長變化追蹤分析等重要工作之重要工具。
交通事故分析相關資料庫1/3 死因檔 死因資料係記錄我國國民死亡之有關資料,每位當年死亡者的資訊均以一筆記錄儲存於死因檔中,而依據國際疾病傷害與死因分類標準,與道路交通事故直接相關的死因分類為ICD 碼E810至E819之運輸事故。 事故檔 道路交通事故料係A1、A2及A3類道路交通事故案件內容,每一事故案件所記錄之資料可分成事故地點、事件本身、涉案當事人三部份,此三部份之資料分別儲存三個資料表格,彼此間以發生時間-年+序號為串連之鍵,來連結同屬一件事故的人、事、地資料。
交通事故分析相關資料庫2/3 汽車保險資料檔 門診檔與住院檔 資料檔包括一般車險及強制汽車責任險兩部份,保險從業人員處理保險事件時,其係依據投保、理賠等處理階段與保險種類之不同,而填具不同的書面資料,包括:一般車險與強制汽車責任險個別之保單資料、批單資料、理賠申請書、理賠計算書、求償計算書,此些資料在資料記錄方式、資料庫結構設計方式上彼此相連結。 門診檔與住院檔 健保資料庫記錄民眾以健康保險方式就醫之各種資料,所用之資料檔為門診處方及治療明細資料檔以及住院醫療費用清單資料檔。
交通事故分析相關資料庫3/3
交通事故地理資訊系統1/3 都市地區事故資料之空間定位 市區交通事故,以地址或交叉路口進行發生地點的描述。 以完整且正確的門牌地址資料庫進,提高事故地點的定位精度,台北市門牌地址的地理資訊資料庫。 交叉路口型事故資料則透過交叉道路之路名與電子地圖之道路名稱比對取得其路口X/Y坐標值,同時亦針對事故位置資料中之地標/地物與電子地圖之地標/地物比對取得其X/Y坐標值,以提高都市地區事故定位精度 。
交通事故地理資訊系統2/3
交通事故地理資訊系統3/3 國省道事故資料之空間定位 依里程數 透過位置參考系統進行 利用動態分段功能分別設定 LRS Datum為交通路網 路網之鍵值為道路名稱與里程起訖欄位名稱 Linear Reference Methods為依里程計算 Event Data為透過ODBC連結之事故點資料 事故資料之鍵值為道路名稱、事故發生里程
都市地區事故資料瀏覽
都市地區事故資料之空間分析1/3 以「交通部運輸研究所」與「台北體育場郵局」為中心500公尺半徑之範圍
都市地區事故資料之空間分析2/3 以「民權東路三段」之線形100公尺環域範圍,分析該範圍內之事故資料
都市地區事故資料之空間分析3/3 對所選取之行政區,作交叉路口的半徑範圍內之肇事當量的前10名排名 (肇事當量=9.5*死亡人數+3.5*受傷人數+ 總肇事次數)
國省道事故資料瀏覽
國省道事故資料之空間分析1/2 國道1號於15k至40k交通尖峰時段之A1與A2事故分佈
國省道事故資料之空間分析2/2 指定行政區範圍、分析時段、分析長度和每次移動距離,分析範圍內之道路,依肇事當量作排序
資料採礦(Data Mining) 資料採礦是一種在大量資料之資料庫中尋找有興趣、有價值的資訊或知識,所以資料採礦可說是結合統計理論、訊息理論與資料庫技術的一種資料分析機制。 進行資料採礦之要件 首先須定義清楚任務 針對每個不同的任務,再來決定須要什麼樣的資料 再從這些資料中找出其所須的特徵,這些特徵是可以區分出不同的類別且具代表性,而它所表現的地方就是要選的屬性 觀察效能,成本效益,是否可以產出更高的利潤 過程都必須是可以被量測的
資料採礦之進行步驟 釐清目標與理解資料 獲取相關技術與知識 整合與查核資料 去除錯誤或不一致及不完整的資料 由資料選取樣本先行試驗 建立模式與型樣 實際資料採礦分析工作 測試與檢核
資料採礦常用模式分類 Classification(分類) Prediction(預測) Association 運用已知的結果,結合其相關屬性,來推導出在資料中存在的規則及事實,方法包括類神經網路、決策樹、... 。 Prediction(預測) 運用歷史資料去預測未來變化, 如Regression、 Time-series 、... 。 Association 在找尋資料的關聯性。 找出在某一事件或是資料中會同時出現的東西。
資料採礦常用模式分類 Segmentation Sequence 使用區隔(Clustering)方法之類聚的現像,其主要區別在於Clustering並未於事前資料的屬性,而是直接做分群,再做資料分析;不同於Classification的是其已先定義每群資料,對每群資料的特性事前就知道。所以Classification是supervised學習,而Clustering是unsupervised學習。 Sequence 用來分析事件的發生是否有連續性,在時間序列上,依照經驗法則之趨勢分析。
Oracle 資料採礦模組-ODM 由Data Mining 應用程式介面(API)與Data Mining 伺服器(DMS)組成。 提供使用者利用java程式語言型資料分析工作。 應用程式介面參考Java Data Mining (JDM) 標準規範 JDM內容包括Object Management Group之通用倉儲詮釋(Common Warehouse Metadata,CWM), Data Mining Group (OMG)之Predictive Model Markup Language (PMML)與ISO最新版資料庫查詢語法之SQL/MM。 Data Mining 伺服器則為資料庫系統之伺服功能。
ODM模式建立與應用流程
ODM之模式建立 模式建立之任務設定檔 模式建立主程式 模式建立結果 資料型態、輸入資料來源、資料是否已處理狀況為unprepared或是discretized、目標屬性名稱、Naive Bayes 演算法之參數設定、任務名稱、模式名稱 模式建立主程式 資料庫連結、建立實體資料物件連結、建立資料採礦函數物件設定、執行模式建立工作 模式建立結果
ODM輸入資料處理 資料為”discretized”之BINNED與”unprepared”之UNBINNED之差異
ODM各採礦任務控制表格 odm_mining_model資料表格所儲存之模式 odm_mining_task資料表格所紀錄之各任務狀態 odm_test_result資料表格紀錄之各mining_task測試結果
事故資料分析試作1/5 資料項選擇 主要肇因 分駕駛人與非駕駛人因素 速限 天候 光線 路面狀況 道路障礙物與視距 號誌種類與狀況 標誌
事故資料分析試作2/5 資料前置處理 台北市74至90年事故件數為52150筆 資料缺失 主要肇因:空白約有20227筆 天候:異常值約有17筆 光線:異常值約有77筆 路面狀況:異常值約有210筆 道路障礙物與視距:異常值約有22筆 號誌種類與狀況:異常值約有242筆 標誌:異常值約有198筆
事故資料分析試作3/5 使用模式:Naïve Bayes Classifier 進行方式 Oracle ODM 檢核後之事故資料匯入Accident資料表。 修改Oracle所提供Naïve Bayes Classifier之Java範例程式,將其中之資料輸入與輸出方式改為本研究需求後即可使用。 模式建立後,以模式建立資料進行檢測模式之解釋能力。 Christian Borgelt http://fuzzy.cs.uni-magdeburg.de/~borgelt/doc/bayes/bayes.html 決定各屬性資料之值域(程式dom)。 產生Naïve Bayes Classifier模式(程式bci)。 執行Naïve Bayes Classifier之分析工作(程式bcx)。 計算confusion matrix以檢測模式之解釋能力(程式xmat) 。
事故資料分析試作4/5 Oracle ODM
事故資料分析試作5/5 Christian Borgelt之Naïve Bayes (期望值,變異數)[筆數]
結論 Oracle ODM之作法較複雜,也需java程式撰寫經驗,恐對非資訊專長之使用者形成障礙,但其與資料庫之整合程度較高,對資料量龐大之業務需求當可提高維護管理之效益,且同時提供Naive Bayes Classifier與Association Rules函數之PMML之匯入與匯出功能,提高模式之交換能力為其優點。 本次試作僅進行Data Mining之整體操作,驗證其實用性。因此後續仍有許多工作要進行,其中如前所述最費時的資料準備工作,甚或會佔掉整各計畫50%之能量。 本研究希望先行導入Data Mining技術於交通事故分析工作,並期望陸續將之推廣至交通運輸其他領域,如車流資料分析、家庭旅次行為分析、…等課題。
簡報結束 敬請指教