●除了刷牙、賣羊奶以外,另一位偉大的貝氏
我們用「P( )」來代表括弧內事情的機率,A帶表是女性,B代表有留長髮。
所以,P(A)就是「事前機率」(總體女生人口比率),P(B)為「新資訊為陽性的機率」(整體留長髮的機率),P(A∣B)則是知道B資訊(留長髮)後,A(是女生)的機率,也就是「事後機率」。P(B∣A) 是所有女性(A)當中,留長髮(B)的機率,也就是「敏感性」。
例如,我們已經知道如何利用「留長髮」的資訊,來計算一個台灣人「是女人」的機率:
{###_elleryhuang/7/1024047238.jpg_###}
就可以簡化成:
{###_elleryhuang/7/1024047239.jpg_###}
(最後一步只是調整公式成一般習慣的寫法而已)
這裡上面介紹到這裡的一系列討論,都是在說明如何在獲得新資訊(乳房攝影結果、留長髮、穿裙子、有喉結)的條件之下,將我們原本對某一事件(乳癌、是男人、是女人)發生的機率,也就是「事前機率」,調整為一個新的發生機率大小,也就是「事後機率」。
這整套方法,都起源自十八世紀一位神父數學家,貝氏(Reverend Thomas Bayes, 1702-61)。
而{###_elleryhuang/7/1024047258.jpg_###}
這個公式,就是貝氏理論最重要的一條。
這個公式看起來很好記,不過如果真的硬背的話,卻是怎麼背怎麼忘。
其實,只要會使用行病學統計學最重要的那張2×2表格,這個公式就非常簡單了。
前面介紹乳癌篩檢的陽性檢測率,其實就是「事後機率」在醫學應用上的特殊名稱。所以我們就來看看剛剛計算陽性檢測率的2×2表格。
{###_elleryhuang/7/1024047240.jpg_###}
接著,我們把它改造成「將A事發生的機率(即事前機率P(A))在獲得新資訊B的條件下,改變為事後機率(P(A∣B))」的一般形式:
{###_elleryhuang/7/1024047241.jpg_###}
再複習一次,P(B∣A)也就是所有A事件中,其資訊B為陽性的機率,我還是喜歡用「敏感性」這個名字。因為要我們非數學專業的華語使用者去理解數學代號,總是沒那麼直覺,因此不利於思考。
由此表格可明顯看出,在獲得「B為陽性」這個新資訊之後,A發生的機率,即事後機率就等於:
{###_elleryhuang/7/1024047242.jpg_###}
消去分子分母的「總數」,並化為代號,就得到{###_elleryhuang/7/1024047258.jpg_###}
這個重要的公式了。
由這個公式,我們可以看出,事後機率分別與分子的「敏感性」及「A的機率」(事前機率)各成正比;又與分母的「B的機率」成反比。
用實際上的狀況來舉例,就非常好理解了。
大家都聽過「牧羊的孩子」這個故事吧!
故事中,牧羊的孩子出於好玩,就亂喊「狼來了!」。看到村民誤以為真的有狼,而全體出動,幫忙保護羊群,牧羊的孩子心裡覺得真好玩。但隨著牧羊的孩子越完越多次,村民就再也不相信「狼來了!」的情報是真的代表狼來了!
在這個故事中,主要講的就是「利用『喊狼來了』這個新資訊,來推測狼是不是真的來了。」
其中「平常時候狼出沒」的頻率,就是「事前機率」P(A)。
「喊狼來了」的頻率,就是B的機率P(B)。
而「在狼真的來了的情況之下,喊狼來了」的頻率,就是P(B∣A),也就是「喊狼來了」對於推估「狼真的來了」的敏感性。
今天假設你是村民,你聽到山上放羊的孩子大喊「狼來了!」,你會有多相信狼真的來了呢?
第一,如果平常狼出沒的頻率越高,那你應該越會覺得這次狼來的機率也很高。所以我們從直覺推理出事後機率與「事前機率」成正比。
第二,如果你以前也當過牧羊童,你知道身為牧羊童,如果真的看到狼來了,幾乎都會喊「狼來了」,這種經驗也會加深你覺得這次狼來了是真的的感覺。也就是說,事後機率還與「敏感性」P(B∣A)成正比。
第三,如果別人跟你說這個牧羊的小孩三天兩頭就在喊狼來了,那就會讓你降低狼真的來了的可能性。也就是說,事後機率與「新資訊發生的頻率」P(B)成反比。
敏感的你可能會感覺到,雖然我已經盡力用直覺的方法去解釋這個事後機率的公式了,但好像還是很難用直覺去理解它。
所以,這個公式其實還有一個更容易理解,也更實用的變體。
在介紹這個實用又容易理解的變體公式之前,讓我們再利用2×2表格來介紹幾個新的概念。這次我們就用放羊的孩子來舉例了。
沒有留言:
張貼留言