Stable機率分布介紹 Joshua Chen, 2009
Stable的涵義 廣義的常態分布。 廣義的中央極限定理。 獨立隨機變數的加總的分布所趨近的分布。 白色噪音的模型,科學模型以外的“模 型”。
常態分布 常態分布的加總還是常態分布。 對稱鐘型曲線。 六個標準差幾乎就是不可能。 近代幾乎所有統計機率及品質管理科學的基石。
中央極限定理 任何一個機率分布,如果標準差存在,則n個iid的隨機變 數的加總的分布,當n趨於無限大的時候,會趨於常態分 布。
中央極限定理 iid的加總。給定定義域大於等於0的這個分布
中央極限定理 What-if。任何一個機率分布,則n個iid的隨機變 數的加總的分布會如何呢?
中央極限定理 iid的加總。給定定義域大於等於1的這個 分布 怎麼看都不像
Stable分布 所謂兩個機率變數X和Y分布是一樣形狀意思是它 們只差個location和scale: 定義:如果對任意n個iid機率變數,線性組合加總 的分布和原來分布一樣形狀,有此性質的分布叫作 Stable分布。
Stable分布 (Stable定理)數學上可以證明有此性質的機率變數的特徵函數一定是: 其中
Stable分布 一般而言,機率密度函數沒有熟悉的式子。 除了少數幾個例外 α=2(此時β的值沒影響),高斯常態分布 α=1且β=0,Cauchy分布 α=0.5且β=0,Levy分布 你可以玩玩看不同α或β的機率累積函數 α越小越fat tail β>0右偏, β<0左偏
Stable分布 α如何影響fat tail,β如何影響skew
Stable分布 以 表示Stable分布的機率變數。 稱之為標準Stable分布,並略以 表示。
Stable分布 兩個獨立Stable機率變數的加總的參數: Stable機率變數和標準Stable機率變數的關係: 時間長度和scale的關係:
Stable分布 由觀察特徵函數在 的可微分程度得出: 由觀察特徵函數在 的可微分程度得出: 當 ,標準差不存在。 當 ,期望值不存在。 給定一個高斯常態分布,如果它的標準差是一個 由Levy機率變數選出的數字,則此分布成為 Cauchy分布。 標準常態分布和 的關係:
Fat Tail 一個機率變數的極端值稱之為Tail。 越肥的Tail表示極端值越可能,越瘦的Tail表示極端 值越不可能。
Fat Tail 大腿燕瘦環肥的定義是一個正數α值: 右腿,使得 不是零的最小α值。 左腿,使得 不是零的最小α值。 右腿,使得 不是零的最小α值。 左腿,使得 不是零的最小α值。 雙腿,右腿的α值和左腿的α值的較小值。 α值越小越肥。
一般中央極限定理 任何一個機率分布,設其雙腿的肥胖程度值為α,且 定義下列數字: 則依據α值的大小有下列幾種情形:
一般中央極限定理 當 ,傳統中央極限定理:
一般中央極限定理 當 ,標準差不存在,
一般中央極限定理 當 ,期望值也不存在, 因為 ,樣本平均的分布無法收斂到一個數值上(大數法則)。
機率分布的分類 由上述一般中央極限定理,我們可以把所有的機率分布 做個分類。 那些iid加總會收斂到 的分布,稱為α/β類。 此機率變數的基本性質和對應的Stable分布一樣。 有無期望值 有無大數法則,樣本平均機率變數越平均越不平均。 有無標準差 肥胖程度 skew程度
伊甸園實驗 想像自己是上帝,建立了一個伊甸園,裡面某個 隨機過程遵循 的分布。 想像自己是上帝,建立了一個伊甸園,裡面某個 隨機過程遵循 的分布。 亞當只學過傳統常態分布,所以他用學校教的方 法去估平均值和標準差。 亞當會看到什麼現象?
伊甸園實驗 的情形,三萬個樣本:
伊甸園實驗 的情形,三萬個樣本:
White Noise 但是,哪有這麼好的事! 當模型一個現象的時候,最好沒有不確定性。例如明天的匯率,完全由現在已經知道值的諸多變數決定: 這個 f 通常也不是一下就找到,而是在做完一個one-to-one的變換(以g代表)之後,找到了一個確定的模式: 在此稱這個 g 和 f 為科學模型。 但是,哪有這麼好的事!
White Noise 所以預測的和到時候真的的匯率,期間的差別得引進一個誤差項: 誤差項就是目前科學模型無法解釋的事(未來科學進步後會找到更好的科學模型)。 因此....
White Noise 該如何描述這個誤差項呢? 它一定和現在的時刻無關,因為如果有關的話,那早該就先被整理進去原本的科學模型裡面了。 隨著時間的前進,累積的誤差項的值的分布形狀應該是一樣的,因為如果形狀會變的話,例如,越久越右偏,那這個訊息早該就先被整理進去原本的科學模型裡面了。 每個期間的誤差項沒有理由不是獨立,例如,如果 和 是同樣的值,那這個訊息早該就先被整理進去原本的科學模型裡面了。 任意加權不同時間的誤差累加起來的誤差的形狀還是一樣.
White Noise 由Stable定理, 和 要一樣的形狀,所以這個誤差項必須是Stable分布。 Stable分布是white noise的唯一模型。
Stable分布例子 蒼蠅找西瓜的路徑 蒼蠅在一個房間裡面找西瓜的飛行路徑 被證明是,完全不知道目標在哪,搜尋除了花時間外沒有任何成本(例如體力衰竭),沒有任何一種(抽象的)居高臨下獲取額外資訊幫助搜尋的可能性的情況下,縮短搜尋時間最好的演算法。 千百萬年的演化,如果燒在蒼蠅的腦子裡的演算法不夠好的話,蒼蠅大概早絕種了。
Stable分布例子 花粉布朗運動
Stable分布例子 因為常態分布是Stable分布的特例,所以用Stable去fit誤差項資料一定比用常態分布去fit來得準。 1437.TT的每日報酬,fit結果為: 常態分布 Stable分布
應用時機 不是所有的分布都有期望值或標準差。 因為樣本數一定有限個,所以樣本平均值 和樣本標準差一定有限,但這不是拒絕使 用沒有期望值或標準差的機率分布來模型 的理由。 當研究任何隨機事件有下列這些現象的時 候,上帝已經在暗示你用錯了模型。
應用時機 當樣本平均值像得了燥癒症,n再大就是不 會收斂的時候,這個隨機變數是屬於 的α/β類的分布。
應用時機 當樣本的標準差,好像收斂了,但一陣子 後又突然因為實現了一個fat tail裡面的樣 本,跳到更高的一個level,這個隨機變數 是屬於 的α/β類的分布。
應用時機 當套用傳統常態分配做模型的時候,在實 際應用上被逼得好像要讓標準差也是一個 機率變數才夠用。
應用時機 當fat tail惱人,心裡經常覺得運氣背的時 間比常態模型預期背的時間多。 LTCM短短幾年就號稱遇到一個100個標準 差的事件。
應用時機 當被研究的問題本質上是一種搜尋過程, 像是 蒼蠅找西瓜 市場尋找買賣平衡點
c’est fini