應用決策樹於行政執行案件 義務人清償率分析 法務部行政執行署臺中分署統計室 科員 廖家儀
摘要 第一章、緒論 第二章、義務人特性分析 第三章、列聯表分析 第四章、資料探勘-決策樹 第五章、結論
第一章、緒論
行政執行機關之成立(1/2) 公法上 金錢給付義務 90年1月1日起 專責行政執行機關—世界首創 地方法院 財務法庭 行政執行 民事執行處 將公法上金錢給付義務逾期不履行者,由移送法院強制執行之制度,改為移送法務部設置之行政執行署所屬各地行政執行處為專責機關,由行政執行官等專業人士準用強制執行法之規定統籌執行 專責行政執行機關—世界首創
行政執行機關之成立(2/2) 89年1月1日-行政執行署正式成立。 90年1月1日-設置臺北、板橋、桃園、新竹、臺中、彰化、 嘉義、臺南、高雄、屏東、花蓮、宜蘭等12個行政執行處。 95年1月1日-增設士林行政執行處。 101年1月1日-配合組織改造,13個行政執行處自101年1月1日起改制為「分署」。
法務部行政執行署各分署轄區 (轄區含福建省連江縣) (轄區含福建省金門縣)
法務部行政執行署所屬分署-職掌 行政執行署所屬各分署主要辦理公法上金 錢給付義務之強制執行、聲明異議之審議、 處理及其協調、聯繫等事項。 設置目的:落實公權力,增裕國庫收入,培 養民眾守法意識。 措施:採取扣押、查封、拍賣義務人之財產、 限制出境、禁奢條款、聲請法院裁定拘提 管收等措施。 大家可能會很好奇,行政執行署及各分署到底在做甚麼呢? 行政執行署所屬各分署主要就是辦理公法上金錢給付義務之強執執行、聲明異議等事項 講的更淺白一點,其實就是政府合法的討債集團。 但是我們的討債團隊沒有暴力討債、更沒有恐怖色彩,皆是在法律規範下採取必要的執行手段與措施,例如扣押、查封、拍賣義務人之財產…. 目的當然就是希望可以落實政府公權力,增加國庫收入並且培養民眾的守法意識。
受理案件種類 公法上金錢給付義務種類: 稅款、滯納金、滯報金、怠報金、利息 罰鍰、怠金 代履行費用 其他公法上應給付金錢義務 ex:政府採購法之押標金 -截至103年12月底止,曾移送執行之移送機關達2,168個、涉 及391種法規。
行政執行案件作業流程圖 收案與分案 執行 程序 報結與掛結
用詞解釋(1/2) 行政執行 : 指公法上金錢給付義務、行為或不行為 義務之強制執行及即時強制。 義務人 : 指因逾期不履行公法上金錢給付義務而遭 移送強制執行之單位或個人。 應納金額 : 指各執行事件經移送後,應徵收之本稅( 或本費、罰鍰、各種公法、債權金額),連同滯納 金、利息及其他各項應附隨徵收之總數。 總應納金額 : 將同一義務人所有應納金額加總。
用詞解釋(2/2) 應執行金額 : 總應納金額扣除總撤回金額。 清償金額 : 指各行政執行案件執行徵起之本稅( 或本費、罰鍰、各種公課、債權金額),連同滯納 金、利息及其他各項應附隨徵收之總數,包括實 物抵繳、退稅抵繳。 清償率 : 本文定義之清償率如下
資料範圍及來源 98年至102年各分署行政執行終結案件。不包含臺北市、新北市及高雄市政府逐年償還依法應負擔之勞、健保費補助款。 以分署為單位,合併同一義務人所有案件為單一筆資料 ○ 各分署案管系統資料庫 & 法務統計資料庫 ○ 撰寫SQL程式篩選資料 ○ EXCEL輔助整理 ○ R語言進行統計分析 ◎R軟體是專門為了機率統計而設計的一種開放原始碼軟體,是免費的自由軟體。
資料架構 1.基本資料 年齡、性別、 健保身分別、是否具軍公教身分 2.種類別應執行金額 財稅、健保、勞保、 罰鍰、費用 3.財產 土地、房屋、汽車、 集保開戶
研究架構
第二章、義務人特性分析
年齡(1/3) 義務人平均年齡-分署別
年齡(2/3) 我國人口老化指數 嘉義縣人口老化指數在五年內都是最高(105.60%、111.77%、119.34%、127.68%、137.26%) ,而雲林縣也都排名前3高(94.3%、99.14%、104.76%、110.10%、115.66%) ,故嘉義分署之義務人平均年齡也相對較高。而桃園分署之轄區-桃園縣近5年之老化指數則偏低,除102年為排名第2低外 ,98至101年老化指數都是所有縣市中最低,亦即桃園縣為臺灣地區人口分佈最年輕的縣市。
年齡(3/3) 義務人年齡:以嘉義分署義務人平均年齡最高,桃 園分署義務人平均年齡最低。 此結果與分署轄區涵蓋縣市有一定程度的關聯,嘉義分署轄區:嘉義縣市與雲林縣 桃園分署轄區:桃園縣 由於年輕後輩多往都市發展,造就嘉義分署義務人平均年齡最高,而桃園分署則平均年齡最低。
義務人性別及是否具軍公教身分(1/3) 為維公法債權並避免影響民眾觀感,具有軍公教身分之義務人係行政執行署一直以來強調應積極清查並加強執行手段的對象。身份別具公職身分的義務人比例普遍介於2.1%~3.0%之間,惟花蓮分署具公職身份的義務人明顯高於其他分署,達4.3%。
義務人性別及是否具軍公教身分(2/3) 義務人性別
義務人性別及是否具軍公教身分(3/3) 義務人性別:以男性居多 義務人是否具軍公教身分:花蓮分署義務人曾具軍 公教身分比率最高 傳統男主外女主內的觀念仍存在,在多由男性為家庭主要經濟來源的情形下,義務人也以男性居多。 花蓮分署軍公教比率4.3%最高,新北分署1.8%最低。 其他分署軍公教比率介於2.1%~3.0%之間
健保投保身分(1/2) 依據全民健康保險法第10條規定,被保險人區分為下列六類: 第一類 : (一)政府機關、公私立學校之專任有給人員或公職人員。 (二)公、民營事業、機構之受僱者。 (三)前二目被保險人以外有一定雇主之受僱者。 (四)雇主或自營業主。 (五)專門職業及技術人員自行執業者。 第二類: (一)無一定雇主或自營作業而參加職業工會者。 (二)參加海員總工會或船長公會為會員之外僱船員。 第三類: (一)農會及水利會會員,或年滿十五歲以上實際從事農業工作者。 (二)無一定雇主或自營作業而參加漁會為甲類會員,或年滿十五歲以上實際從事漁業工作者。 第四類: (一)應服役期及應召在營期間逾二個月之受徵集及召集在營服兵役義務者、國軍軍事學校軍費學生、經國防部認定之無依軍眷及在領卹期間之軍人遺族。 (二)服替代役期間之役齡男子。 (三)在矯正機關接受刑之執行或接受保安處分、管訓處分之執行者。但其應執行之期間,在二個月以下或接受保護管束處分執行者,不在此限。 第五類:合於社會救助法規定之低收入戶成員。 第六類: (一)榮民、榮民遺眷之家戶代表。 (二)第一款至第五款及本款前目被保險人及其眷屬以外之家戶戶長或代表。 ◎以執行業務的實務經驗而言,執行過程中義務人之投保身份類別有可能會變動,不同時間查詢會有不同之投保身份,於資料庫中之健保投保紀錄檔即有兩筆以上之投保類別。本文將以義務人是否曾經投保第一類至第六類分別建立6個變項。
◎依據全民健康法險法第10條規定,被保險人區分為下列六類: 第一類:如被保險人有薪資所得 第二類:如被保險人加保於職業工會 第三類:如被保險人加保於漁會或水利會 第四類:如被保險人加保於軍人替代役或受刑人 第五類:如被保險人為低收入戶 第六類:如被保險人為區域人口
健保投保身分(2/2) 說明:本表之健保投保身分別係依據義務人在不同時間點曾經具有之健 保身分,分別建構六個變項。
清償率 ◎衡量行政執行最終成果,即是案件徵起金額。各分署執行人員窮盡各種手段,無非就是要義務人清償所有案件欠款。為何有些義務人經過執行程序後,即全部清償所有欠款;但有些義務人就是無法順利徵起。哪些因素影響義務人的清償率?是否可以利用過去所累積的歷史資料,建立預測義務人清償率的模型?此將是本文分析之重點。 ◎觀察13分署義務人清償率的直方圖,可發現大多數義務人清償率多落在0~0.05及0.95~1.0範圍內,形成明顯的U字型。 由此可見義務人繳款情形很極端,不是清償率極低就是近乎清償完畢,也因為義務人清償率的分佈情形,導致平均清償率受兩端資料拉扯過大而失去衡量集中趨勢的意義,因此改以眾數觀察義務人清償率的集中趨勢
第三章、列聯表分析
概述 列聯表分析: 清償率級距 ○義務人是否有財產 ○性別 ○是否具公職身分 ○健保身分別(身分別1-6)。 當我們有兩個或更多個類別變數之資料時,以交叉方式計算各類別聯合發生次數,一般稱為列聯表分析。 ○義務人是否有財產 (汽車、房屋、土地、集保) ○性別 ○是否具公職身分 ○健保身分別(身分別1-6)。 清償率級距 1. [級距1] :0.00≦清償率≦0.25 2. [級距2] :0.25<清償率≦0.50 3. [級距3] :0.50<清償率≦0.75 4. [級距4] :0.75<清償率≦1.00 卡方獨立性檢定
卡方獨立性檢定 卡方獨立性檢定又稱Pearson卡方檢定,可用來判 定兩變數之間是否獨立,亦即判定兩變數是否有 關聯,故又稱「關聯性檢定」 卡方獨立性檢定的虛無假設及對立假設為
義務人是否有財產之列聯表(清償率級距 × 汽車) 義務人財產:是否有汽車 清償率級距與「義務人是否有汽車」有無關聯 ? 義務人是否有財產之列聯表(清償率級距 × 汽車) 98年至102年
清償率級距與「義務人是否有房屋」有無關聯 ? 義務人財產:是否有房屋 清償率級距與「義務人是否有房屋」有無關聯 ? 義務人是否有財產之列聯表(清償率級距 × 房屋) 98年至102年
清償率級距與「義務人是否有土地」有無關聯 ? 義務人財產:是否有土地 清償率級距與「義務人是否有土地」有無關聯 ? 義務人是否有財產之列聯表(清償率級距 × 土地) 98年至102年
清償率級距與「義務人是否為集保戶」有無關聯 ? 義務人財產:是否為集保戶 清償率級距與「義務人是否為集保戶」有無關聯 ? 義務人是否有財產之列聯表(清償率級距 × 集保戶) 98年至102年
義務人性別 清償率級距與「義務人性別」有無關聯 ? 義務人性別之列聯表(清償率級距 × 性別) 98年至102年
清償率級距與「義務人是否具軍公教身分」有無關聯 ? 義務人是否為軍公教身分之列聯表(清償率級距 × 軍公教身分) 98年至102年
義務人是否曾具健保身分別1 之列聯表(清償率級距 × 身分別1) 義務人健保身分別 清償率級距與「義務人是否曾具健保身分別 1 (如:有薪資所得)」有無關 聯 ? 義務人是否曾具健保身分別1 之列聯表(清償率級距 × 身分別1) 98年至102年
義務人是否曾具健保身分別2 之列聯表(清償率級距 × 身分別2) 義務人健保身分別 清償率級距與「義務人是否曾具健保身分別2 (如:加保於職業工會)」 有無關聯 ? 義務人是否曾具健保身分別2 之列聯表(清償率級距 × 身分別2) 98年至102年
義務人是否曾具健保身分別3 之列聯表(清償率級距 × 身分別3) 義務人健保身分別 清償率級距與「義務人是否曾具健保身分別 3 (如:加保於漁會或水利 會)」有無關聯 ? 義務人是否曾具健保身分別3 之列聯表(清償率級距 × 身分別3) 98年至102年
義務人是否曾具健保身分別4 之列聯表(清償率級距 × 身分別4) 義務人健保身分別 清償率級距與「義務人是否曾具健保身分別 4 (如:替代役或受刑人)」有 無關聯 ? 義務人是否曾具健保身分別4 之列聯表(清償率級距 × 身分別4) 98年至102年
義務人是否曾具健保身分別5 之列聯表(清償率級距 × 身分別5) 義務人健保身分別 清償率級距與「義務人是否曾具健保身分別 5 (如:低收入戶)」有無關 聯 ? 義務人是否曾具健保身分別5 之列聯表(清償率級距 × 身分別5) 98年至102年
義務人是否曾具健保身分別6 之列聯表(清償率級距 × 身分別6) 義務人健保身分別 清償率級距與「義務人是否曾具健保身分別 6 (如:區域人口)」有無關 聯 ? 義務人是否曾具健保身分別6 之列聯表(清償率級距 × 身分別6) 98年至102年
小結 義務人是否有汽車、土地、房屋、是否為集保 戶、義務人性別、義務人是否具軍公教身分及義 務人是否曾具健保身分1-6,與清償率高低之間都 具有關聯性。 比率: 義務人沒有汽車;義務人有土地、房屋、集保 戶、具軍公教身分、健保身分別為1 (如:有薪資所 得)、性別為女性之義務人,清償率會較高。而健 保身分別為2、4、5、6之義務人,清償率則較 低。 卡方獨立性檢定: 發現:
第四章、資料探勘 這幾年來,由於資料處理速度與儲存設備的效能快速進步,無論大小組織單位多能快速累積大量資料。然而要能夠從大量資料中萃取出有用的資訊卻不是一件容易的事情。大數據分析的興起,對於資料分析的形態有了很大的轉變。因此我們統計人員應如何將這樣複雜龐大又快速累積的資料轉變為結構性資料,再進一步去選擇適合的統計方法進行後續分析,就顯得格外重要。
資料探勘 資料探勘的目的就是希望在堆得像山一樣高的資 料中,使用自動或半自動的方式把隱藏在資料中 的有用資訊發掘出來。且可以發現一些新奇以及 有用的樣式。另外,資料探勘技術也在於預測未 來。例如: 預測某義務人清償率是否會大於5成? 大量 資料 有用 資訊
資料探勘技術:決策樹 決策樹是近年來常用的資料探勘技術,可視為迴歸分 析的擴充模型。 CART決策樹(Classification and Regression Trees),同 時兼具分類樹與迴歸樹的功能,由Brieman於1984年 提出。其特色是一次分出兩個節點(node),且應變數 與解釋變數都可以是連續型。 優點: 很容易處理同時擁有類別與數值的資料 不容易受離群值(outlier)的影響
CART演算法的基本概念 使用二元分割規則來進行分納與歸類的動作。 在演算過程中將資料分類,分類過程與樹狀結構 類似。擁有根、結點與樹葉等。 每個分枝節點均視為一次伯努力實驗,並且在演 算過程中透過遞迴過程產生一連串的分類規則, 演算的結果可用來預測樣本其歸納出的類別所 在。
CART演算法目標 1.建立樹狀結構 2.修剪 3.挑選最佳樹狀結構 使用GINI值來判斷資料分散程度。 1.建立樹狀結構 2.修剪 3.挑選最佳樹狀結構 產生分割條件 選擇一分割條件 計算不純度 檢測是否為最小不純度 產生分類 是 否 使用GINI值來判斷資料分散程度。 GINI分類法,為找到一種分割條件,使得純度最高即不純度最低。
決策樹 利用義務人的基本資料與特性變項去建構出迴歸 樹,以預測義務人之清償率 模型1:含法人(不考慮年齡) 模型2:不含法人(考慮年齡) 目標 義務人
決策樹 測試模型準確性 建構模型 資料集 90% 訓練樣本 10% 測試樣本
迴歸樹變數及屬性(1/3) 義務人清償率 (屬性:連續) 性別 類別 (0:法人 1:男 2:女) 年齡 連續 總應執行金額 應變數 解釋變數 屬性 義務人清償率 (屬性:連續) 性別 類別 (0:法人 1:男 2:女) 年齡 連續 總應執行金額 是否具健保身分別=1 是否具健保身分別=2 是否具健保身分別=3 是否具健保身分別=4 是否具健保身分別=5 是否具健保身分別=6 二元 (0:否 1:是)
迴歸樹變數及屬性(2/3) 義務人清償率 (屬性:連續) 財稅案件應執行金額 占總應執行金額比率 (簡稱財稅案件應執行金額比率) 連續 應變數 解釋變數 屬性 義務人清償率 (屬性:連續) 財稅案件應執行金額 占總應執行金額比率 (簡稱財稅案件應執行金額比率) 連續 健保案件應執行金額 (簡稱健保案件應執行金額比率) 勞保案件應執行金額 (簡稱勞保案件應執行金額比率) 罰鍰案件應執行金額 (簡稱罰鍰案件應執行金額比率) 費用案件應執行金額 (簡稱費用案件應執行金額比率)
迴歸樹變數及屬性(3/3) 義務人清償率 (屬性:連續) 是否有汽車 二元 (0:否 1:是) 是否有房屋 是否有土地 是否為集保戶 應變數 解釋變數 屬性 義務人清償率 (屬性:連續) 是否有汽車 二元 (0:否 1:是) 是否有房屋 是否有土地 是否為集保戶 是否具軍公教身分
迴歸樹(含法人)-全國 最高清償率 0.8, 占根節點義務人數之 23.64%。 最低清償率 0.235, 占根節點義務人數 之 23.59%。 重要節點: 「總應執行金額」 「曾具健保身分別 1」 「曾具健保身分別 6」 「財稅案件應執行金額比率」 「罰鍰案件應執行金額比率」
迴歸樹(自然人)-全國 最高清償率 0.844, 占根節點義務人數之 23.33%。 最低清償率 0.235, 占根節點義務人數 之 29.12%。
迴歸樹-模型評估(1/2) 平均絕對誤差 MAPE 判斷準則
迴歸樹-模型評估(2/2) (%) 26.0 24.0 MAPE值介於20~50, 屬於偏『優良』之『合理』預測模型。 MAPE 值 模型 義務人(含法人) 義務人(自然人) MAPE 值 (%) 訓練樣本 測試樣本 26.0 24.0 MAPE值介於20~50, 屬於偏『優良』之『合理』預測模型。
小結 影響決策樹的重要節點:「總應執行金額」、「是否曾具 健保身分別 1」、「是否曾具健保身分別 6」、「財稅案 件應執行金額比率」、「罰鍰案件應執行金額比率」。 當義務人曾具「健保身分別6 (如:區域人口)」,預測清償 率低。 當義務人曾具「健保身分別1 (如:有薪資所得)」,預測清 償率高。 罰鍰案件應執行金額比率低者,清償率會高於比率高者。 當財稅案件應執行金額比率在5成以上者,清償率會高於 比率未達5成者。
第五章、結論
結論 「總應執行金額」、「是否曾具健保身分別=1」、「是否 曾具健保身分別=6」、「財稅案件應執行金額比率」、 「罰鍰案件應執行金額比率」為決策樹分析中挑選出的重 要節點: 故當一義務人移送分署執行時,可依據這些重要變數預測 其可能的清償率。 決策樹:與傳統迴歸模型類似,但卻無需對資料先進行基 本統計假設後,再判斷迴歸模型是否適用,且樹狀結構提 供的資訊邏輯清晰,當一義務人移送案件進來後,我們可 以根據其變數資料,預測其未來可能的清償率。
報告結束 敬請指教