●Google自動駕駛車「腦中」最重要的一條公式
如果今天是一個男的去做乳房攝影(當然他要很胖,胸部要很大才做得了),結果為陽性,他有乳癌的機率也是9.2%嗎?男生不是幾乎不可能得乳癌嗎?
又如果今天是一個已經確定有乳癌的人去做乳房攝影,結果是陽性,難道你要說這個已經確定有乳癌的人真正有乳癌的機率是9.2%?又或者他乳房攝影的結果居然是陰性呢?
我們用生活上的例子來看,假設台灣女性有70%留長髮,台灣男性則只有25%留長髮。很明顯女性留長髮的比例比男性高,因此我們可以用留長髮與否來推測一個人是女性的機率有多少,而70%就是真陽性率,也就是敏感性;25%則是假陽性率,也就是「1-特異性」(我們是不是常常看到「1-特異性」而非特異性呢?你現在可以理解為什麼ROC曲線要用「1-特異性」做橫軸了吧!)。
所以,如果我們只知道一個人他是留長髮的,那麼她是女性的機率有多少呢?
如果你夠精明的話,應該可以看出我的詭計──我根本還沒告訴你台灣女性的「盛行率」,也就是台灣女性佔總人口的比率是多少呢!所以根本沒辦法算!
現在假設台灣女性人口比率是48%,我們就可以算出隨便一個留長髮的人是女性的機率:
{###_elleryhuang/7/1024047236.jpg_###}
所以,如果我只知道一個人是台灣人,那他是女性的機率48%(女性佔總人口的比率);如果我在告訴你他留長髮,那他是女生的機率就從原本的48%,變成58%。
假設台灣男人很幸福,因為台灣女性佔總人口比率是80%,那如果你只知道一個人是台灣人,他是女性的機率就是80%;如果你又知道他有留長髮,則他是女性的機率就提高到92%了。
由此可見,同樣是知道一個人有留長髮,但他是女性的機率,還會受到「知道他有沒有留長髮之前的機率」影響,例如在這個例子裡是受到台灣女性人口比率影響。
例如,假設我還先偷偷告訴你,這個人穿裙子喔!那麼她是女性的機率就從原本的女性人口比率大大提高許多(假設穿裙子的人是女性的機率是86%)。現在我再告訴你他有留長髮,那又會提高她是女性的機率了。(其實就等於經過兩次篩檢。)
又假設你已經知道這個人有喉結,那她是女性的機率絕對很小(假設是1%),就算我之後告訴你他有留長髮,他是女性的機率也不會很高。
所以,如果我們已經先知道了別的資訊,就不能利用女性人口比率來計算知道他有沒有留長髮之後是女性的機率了!而是應該用知道留長髮資訊之前,她是女性的機率,來計算知道留長髮資訊之後的機率。
知道留長髮資訊之前,她是女性的機率,我們稱作「事前機率」(prior probability)。
知道留長髮資訊後,她是女性的機率,我們稱作「事後機率」(posterior probability)
應用在醫學檢測上,就是利用疾病盛行率來當作事前機率;至於事後機率,則是從醫學檢測的角度,特稱為陽性檢測率。
用事前機率這個名稱來代替疾病盛行率,將有助於我們思考前面的問題。
一個男人去作乳房攝影,結果為陽性,我們不能用一般的乳癌盛行率來計算這個男人有乳癌的機率。因為,一般的乳癌盛行率,指的是所有無乳房症狀的女性,得乳癌的機率。所以,我們應該用所有(乳房大到足以作乳房攝影)的男性得乳癌的機率,來當作事前機率。
同樣的,在計算已經有乳癌的女性作乳房攝影之後真的有乳癌的機率,也應該用她的事前機率,也就是100%來計算,所以算出來還是100%!
所以,我們就可以把剛剛陽性檢測率的公式,改成下面事後機率的公式:
{###_elleryhuang/7/1024047237.jpg_###}
大家應該都有用過Google地圖,裡面的街景功能讓人簡直是身歷其境,非常有趣。
在美國,有些地方的街景,居然是由Google研發的自動駕駛車所蒐集的!車裡面完全沒人!
從上路到現在,自動駕駛車總共只出過一次車禍,而且還是停紅燈被後面的車給追撞的。
這讓我們不得不佩服人工智慧的厲害。
不過,人工智慧厲害歸厲害,畢竟也是人腦設計的。而且你現在已經學會Google自動駕駛車的人工智慧裡面,最重要的一條公式了!
沒錯,這條公式就是:
{###_elleryhuang/7/1024047237.jpg_###}
不過,這個型式的公式主要應用在醫學界,因為敏感性以及特異性是醫學的基礎知識,很容易就可以套用到公式中來計算。
我們可以把這條公式的分母往回推兩步,因為我們知道,事後機率其實就是所有陽性裡面,真陽性的比率,所以:
{###_elleryhuang/7/1024047257.jpg_###}
我們再稍微替換一下專有名詞。不過這可能需要喚醒高中數學課所上的條件機率。
沒有留言:
張貼留言