2011年6月30日 星期四

《醫生你到底在想啥?》之除了刷牙、賣羊奶以外,另一位偉大的貝氏

●除了刷牙、賣羊奶以外,另一位偉大的貝氏



我們用「P( )」來代表括弧內事情的機率,A帶表是女性,B代表有留長髮。



所以,P(A)就是「事前機率」(總體女生人口比率),P(B)為「新資訊為陽性的機率」(整體留長髮的機率),P(A∣B)則是知道B資訊(留長髮)後,A(是女生)的機率,也就是「事後機率」。P(B∣A) 是所有女性(A)當中,留長髮(B)的機率,也就是「敏感性」。



例如,我們已經知道如何利用「留長髮」的資訊,來計算一個台灣人「是女人」的機率:

{###_elleryhuang/7/1024047238.jpg_###}



就可以簡化成:

{###_elleryhuang/7/1024047239.jpg_###}

(最後一步只是調整公式成一般習慣的寫法而已)



這裡上面介紹到這裡的一系列討論,都是在說明如何在獲得新資訊(乳房攝影結果、留長髮、穿裙子、有喉結)的條件之下,將我們原本對某一事件(乳癌、是男人、是女人)發生的機率,也就是「事前機率」,調整為一個新的發生機率大小,也就是「事後機率」。



這整套方法,都起源自十八世紀一位神父數學家,貝氏(Reverend Thomas Bayes, 1702-61)。



而{###_elleryhuang/7/1024047258.jpg_###}



這個公式,就是貝氏理論最重要的一條。



這個公式看起來很好記,不過如果真的硬背的話,卻是怎麼背怎麼忘。



其實,只要會使用行病學統計學最重要的那張2×2表格,這個公式就非常簡單了。



前面介紹乳癌篩檢的陽性檢測率,其實就是「事後機率」在醫學應用上的特殊名稱。所以我們就來看看剛剛計算陽性檢測率的2×2表格。



{###_elleryhuang/7/1024047240.jpg_###}





接著,我們把它改造成「將A事發生的機率(即事前機率P(A))在獲得新資訊B的條件下,改變為事後機率(P(A∣B))」的一般形式:

{###_elleryhuang/7/1024047241.jpg_###}





再複習一次,P(B∣A)也就是所有A事件中,其資訊B為陽性的機率,我還是喜歡用「敏感性」這個名字。因為要我們非數學專業的華語使用者去理解數學代號,總是沒那麼直覺,因此不利於思考。



由此表格可明顯看出,在獲得「B為陽性」這個新資訊之後,A發生的機率,即事後機率就等於:

{###_elleryhuang/7/1024047242.jpg_###}





消去分子分母的「總數」,並化為代號,就得到{###_elleryhuang/7/1024047258.jpg_###}



這個重要的公式了。



由這個公式,我們可以看出,事後機率分別與分子的「敏感性」及「A的機率」(事前機率)各成正比;又與分母的「B的機率」成反比。



用實際上的狀況來舉例,就非常好理解了。



大家都聽過「牧羊的孩子」這個故事吧!



故事中,牧羊的孩子出於好玩,就亂喊「狼來了!」。看到村民誤以為真的有狼,而全體出動,幫忙保護羊群,牧羊的孩子心裡覺得真好玩。但隨著牧羊的孩子越完越多次,村民就再也不相信「狼來了!」的情報是真的代表狼來了!



在這個故事中,主要講的就是「利用『喊狼來了』這個新資訊,來推測狼是不是真的來了。」



其中「平常時候狼出沒」的頻率,就是「事前機率」P(A)。



「喊狼來了」的頻率,就是B的機率P(B)。



而「在狼真的來了的情況之下,喊狼來了」的頻率,就是P(B∣A),也就是「喊狼來了」對於推估「狼真的來了」的敏感性。



今天假設你是村民,你聽到山上放羊的孩子大喊「狼來了!」,你會有多相信狼真的來了呢?



第一,如果平常狼出沒的頻率越高,那你應該越會覺得這次狼來的機率也很高。所以我們從直覺推理出事後機率與「事前機率」成正比。



第二,如果你以前也當過牧羊童,你知道身為牧羊童,如果真的看到狼來了,幾乎都會喊「狼來了」,這種經驗也會加深你覺得這次狼來了是真的的感覺。也就是說,事後機率還與「敏感性」P(B∣A)成正比。



第三,如果別人跟你說這個牧羊的小孩三天兩頭就在喊狼來了,那就會讓你降低狼真的來了的可能性。也就是說,事後機率與「新資訊發生的頻率」P(B)成反比。



敏感的你可能會感覺到,雖然我已經盡力用直覺的方法去解釋這個事後機率的公式了,但好像還是很難用直覺去理解它。



所以,這個公式其實還有一個更容易理解,也更實用的變體。



在介紹這個實用又容易理解的變體公式之前,讓我們再利用2×2表格來介紹幾個新的概念。這次我們就用放羊的孩子來舉例了。

2011年6月27日 星期一

《醫生你到底在想啥?》之Google自動駕駛車「腦中」最重要的一條公式

●Google自動駕駛車「腦中」最重要的一條公式



如果今天是一個男的去做乳房攝影(當然他要很胖,胸部要很大才做得了),結果為陽性,他有乳癌的機率也是9.2%嗎?男生不是幾乎不可能得乳癌嗎?



又如果今天是一個已經確定有乳癌的人去做乳房攝影,結果是陽性,難道你要說這個已經確定有乳癌的人真正有乳癌的機率是9.2%?又或者他乳房攝影的結果居然是陰性呢?



我們用生活上的例子來看,假設台灣女性有70%留長髮,台灣男性則只有25%留長髮。很明顯女性留長髮的比例比男性高,因此我們可以用留長髮與否來推測一個人是女性的機率有多少,而70%就是真陽性率,也就是敏感性;25%則是假陽性率,也就是「1-特異性」(我們是不是常常看到「1-特異性」而非特異性呢?你現在可以理解為什麼ROC曲線要用「1-特異性」做橫軸了吧!)。



所以,如果我們只知道一個人他是留長髮的,那麼她是女性的機率有多少呢?



如果你夠精明的話,應該可以看出我的詭計──我根本還沒告訴你台灣女性的「盛行率」,也就是台灣女性佔總人口的比率是多少呢!所以根本沒辦法算!



現在假設台灣女性人口比率是48%,我們就可以算出隨便一個留長髮的人是女性的機率:

{###_elleryhuang/7/1024047236.jpg_###}



所以,如果我只知道一個人是台灣人,那他是女性的機率48%(女性佔總人口的比率);如果我在告訴你他留長髮,那他是女生的機率就從原本的48%,變成58%。



假設台灣男人很幸福,因為台灣女性佔總人口比率是80%,那如果你只知道一個人是台灣人,他是女性的機率就是80%;如果你又知道他有留長髮,則他是女性的機率就提高到92%了。



由此可見,同樣是知道一個人有留長髮,但他是女性的機率,還會受到「知道他有沒有留長髮之前的機率」影響,例如在這個例子裡是受到台灣女性人口比率影響。



例如,假設我還先偷偷告訴你,這個人穿裙子喔!那麼她是女性的機率就從原本的女性人口比率大大提高許多(假設穿裙子的人是女性的機率是86%)。現在我再告訴你他有留長髮,那又會提高她是女性的機率了。(其實就等於經過兩次篩檢。)



又假設你已經知道這個人有喉結,那她是女性的機率絕對很小(假設是1%),就算我之後告訴你他有留長髮,他是女性的機率也不會很高。



所以,如果我們已經先知道了別的資訊,就不能利用女性人口比率來計算知道他有沒有留長髮之後是女性的機率了!而是應該用知道留長髮資訊之前,她是女性的機率,來計算知道留長髮資訊之後的機率。



知道留長髮資訊之前,她是女性的機率,我們稱作「事前機率」(prior probability)。



知道留長髮資訊後,她是女性的機率,我們稱作「事後機率」(posterior probability)



應用在醫學檢測上,就是利用疾病盛行率來當作事前機率;至於事後機率,則是從醫學檢測的角度,特稱為陽性檢測率。



用事前機率這個名稱來代替疾病盛行率,將有助於我們思考前面的問題。



一個男人去作乳房攝影,結果為陽性,我們不能用一般的乳癌盛行率來計算這個男人有乳癌的機率。因為,一般的乳癌盛行率,指的是所有無乳房症狀的女性,得乳癌的機率。所以,我們應該用所有(乳房大到足以作乳房攝影)的男性得乳癌的機率,來當作事前機率。



同樣的,在計算已經有乳癌的女性作乳房攝影之後真的有乳癌的機率,也應該用她的事前機率,也就是100%來計算,所以算出來還是100%!



所以,我們就可以把剛剛陽性檢測率的公式,改成下面事後機率的公式:

{###_elleryhuang/7/1024047237.jpg_###}





大家應該都有用過Google地圖,裡面的街景功能讓人簡直是身歷其境,非常有趣。



在美國,有些地方的街景,居然是由Google研發的自動駕駛車所蒐集的!車裡面完全沒人!



從上路到現在,自動駕駛車總共只出過一次車禍,而且還是停紅燈被後面的車給追撞的。



這讓我們不得不佩服人工智慧的厲害。



不過,人工智慧厲害歸厲害,畢竟也是人腦設計的。而且你現在已經學會Google自動駕駛車的人工智慧裡面,最重要的一條公式了!



沒錯,這條公式就是:

{###_elleryhuang/7/1024047237.jpg_###}





不過,這個型式的公式主要應用在醫學界,因為敏感性以及特異性是醫學的基礎知識,很容易就可以套用到公式中來計算。



我們可以把這條公式的分母往回推兩步,因為我們知道,事後機率其實就是所有陽性裡面,真陽性的比率,所以:

{###_elleryhuang/7/1024047257.jpg_###}





我們再稍微替換一下專有名詞。不過這可能需要喚醒高中數學課所上的條件機率。

2011年6月24日 星期五

《醫生你到底在想啥?》之疾病盛行率與陽性檢測率

●疾病盛行率



如下圖所示,疾病盛行率即為(a+c)/(a+b+c+d)。

{###_elleryhuang/7/1024047231.jpg_###}



知道疾病盛行率之後,我們就有辦法算出我們最想要知道的東西,也就是檢查為陽性的病人究竟罹病的機率是多少?乳房攝影陽性的病人究竟有乳癌的機率是多少?D-dimer陽性的病人究竟有肺栓塞的機率是多少?D-dimer陰性的病人肺栓塞的機率又有多低?



在這之前,還得先瞭解兩個概念。





●陽性檢測率



如下圖所示,在所有乳房攝影結果為陽性的病人之中,真正有乳癌的比率,也就是陽性檢測率,為a/(a+b)。

{###_elleryhuang/7/1024047232.jpg_###}



那麼陽性檢測率要怎麼算呢?也就是說,病人的乳房攝影結果是陽性的話,他真正有乳癌的機率要怎麼算呢?



必須先說明,在2×2表格裡很明顯就可以看出陽性檢測率等於a/(a+b),而a和b也就是真陽性跟偽陽性又都是已知的,所以你直接就可以算出陽性檢測率了。不過,在現實世界中,你完全不知道有幾個人是真陽性,有幾個人是真陽性。



在現實世界中,你所能直接知道的數據,就只有敏感性、特異性,以及疾病盛行率。所以,我們必須要知道如何從這三個數據去算出陽性檢測率。



陽性檢測率也就是所有檢測結果為陽性的人裡面,真正有患病(真陽性)的機率,也就是:

{###_elleryhuang/7/1024047233.jpg_###}



所以我們必須算出真陽性及偽陽性:

真陽性=乳癌患者數×敏感性 (還記得敏感性又叫做真陽性率嗎?)

偽陽性=無乳癌人數×(1-特異性) (還記得「1-特異性」又叫做偽陽性率嗎?)



所以我們只要算出乳癌患者數,以及無乳癌人數就可以了:

乳癌患者數=總人數×乳癌盛行率

無乳癌人數=總人數×(1-乳癌盛行率)



那麼總人數是多少?我們不知道,所以就先擺著。



所以,陽性檢測率就等於:

{###_elleryhuang/7/1024047256.jpg_###}



太好了!我們發現總人數可以被消掉,所以最後,陽性檢測率就等於:

{###_elleryhuang/7/1024047234.jpg_###}





前面提過乳癌的盛行率是0.68%,乳房攝影的敏感性是75.6%,特異性94.9%。將之代入公式,就可以算出乳房攝影陽性的人真正有乳癌的機率了:

{###_elleryhuang/7/1024047235.jpg_###}





所以,今天如果一個人他去做乳房攝影,結果為陽性,你就可以說他真正有乳癌的機率是9.2%了......



真的是這樣嗎?

2011年6月21日 星期二

《醫生你到底在想啥?》之敏感性與特異性

●敏感性



前面介紹過的敏感性,也就是所有乳癌患者之中,正確被篩檢出來為陽性的比率,也就是a/(a+c)。敏感性又可稱作「真陽性率」,但一般不喜歡用這個名詞,因為很容易跟前面提到的「陽性檢測率」相混淆。(如果你心裡忽然大驚這兩個詞指的原來是不一樣的東西,那你就是已經混淆了這兩個概念。不要緊,心理學家發現連醫生、統計學家,及其他專業人士,還有幾乎所有人類,都容易混淆這兩個概念。這個「心理學家」還藉由這個發現得到了2002年的諾貝爾經濟學獎!)

{###_elleryhuang/7/1024047229.jpg_###}



敏感性

a/(a+c)

另外,c/(a+c)則被非正式的稱為偽陰性率,也就等於1-敏感性。



如果乳癌的病人有越高的比例可以被乳房攝影檢查出來,也就是敏感性很高,也就是a/(a+c)越接近100%,則「1-敏感性」(偽陰性率)也就越低。也就是乳癌的病人用乳房攝影檢查不出來而被誤判為陰性的機率很低,所以如果病人的檢查結果是陰性,我們應該可以「排除」(rule out)他真的有乳癌的可能。



因此,我們得到一個重要的結論:敏感性越高的檢查,越有能力「排除」疾病。



用生活上的例子來說,在所有男生裡面,有很高比例的男生都穿褲子(即用穿褲子與否來篩檢是否為男性的敏感度高),所以如果一個人不穿褲子而穿裙子,你大概可以排除他是男生。但是,如果有一個人穿褲子,你卻不能「確認」(rule in)他是男生。因為女生也有很高比例穿褲子。



相對來說,雖然女生穿裙子的比例比男生高,但在所有女生裡面,穿裙子的比例也沒有很高(即用穿裙子與否來篩檢是否為女性的敏感度低),所以如果一個人沒穿裙子,你也不能排除他是女生。





●特異性



至於特異性,則是所有無乳癌者之中,正確被篩檢為陰性的比率,也就是d/(b+d)。特異度同樣可稱作「真陰性率」,大家也同樣不喜歡這個容易混淆的名稱。

{###_elleryhuang/7/1024047230.jpg_###}





另外,如同前面在介紹ROC曲線所說的,b/(b+d)被非正式的稱為偽陽性率,也就等於1-特異性。



如果沒有乳癌的人有越高的比例可以被乳房攝影正確的判定為陰性,也就是特異性很高,也就是d/(b+d)越接近100%,則「1-特異性」(偽陽性率)也就越低。也就是沒有乳癌的人被乳房攝影誤認為陽性的機率很低,所以如果病人的檢查結果是陽性,我們應該可以「確認」(rule in)他真的有乳癌。



因此,我們得到第二個重要的結論:特異性越高的檢查,越有能力「確認」疾病。



用生活上的例子來說,男生留鬍子的比例比女生高,所以我們可以用留鬍子與否來篩檢一個人是否為男性。而在所有不是男生的人(即所有女生)裡面,沒留鬍子的比例很高(即用留鬍子與否來篩檢使否為男性的特異性很高),所以如果一個人有留鬍子,你大概可以確認他是男性。但是,如果有一個人沒有留鬍子,你卻不能「排除」他是男性,因為男生也有很高比例沒有留鬍子(現在你應該會用專業的術語來說明原因了:因為用留鬍子來篩檢男性的「敏感度」不高!所以無法用來「排除」!)



相對來說,台灣人黑頭髮的比例比非台灣人還高(不考慮染髮),因此我們可以用黑頭髮與否來篩檢是否為台灣人。而雖然此項篩檢的敏感性很高(幾乎所有台灣人都是黑頭髮),但特異性卻不高(非台灣人也有很多黑頭髮)。因此,就算一個人是黑頭髮,我們還是無法確認他是台灣人。接下來你應該可以舉一反三了,因為此項篩檢的敏感性高,所以可以用來「排除」。因此當一個人不是黑頭髮,我們大概可以排除他是台灣人。



用醫學上的例子來說,D-dimer是體內血栓分解的產物。而肺栓塞也就是肺部的血管被血栓塞住了,因此肺栓塞的病人D-dimer幾乎都會高起來。也就是說,如果要用D-dimer來篩檢肺栓塞的話,敏感度很高。



但是,除了肺栓塞以外,如果病人有像是腦梗塞、心肌梗塞、深層靜脈栓塞等等疾病,也都是有血栓,因此D-dimer也有很高的比率會高起來。除此之外,像是癌症、手術、外傷,也都會讓D-dimer高。以上情形都會在沒有肺栓塞的情況下產生偽陽性。所以用D-dimer來篩檢肺栓塞的特異性很低。



敏感性很高,可以用來「排除」(rule out);特異性很低,不能用來「確認」(rule in)。



因此,在臨床上,醫生檢查病人的D-dimer,通常是用來排除病人有肺栓塞,而無法確認肺栓塞的診斷。



因為假設病人的D-dimer很低,有肺栓塞的機率就很低……等一等,這句話「嚴格來講」是錯的!!



就像前面乳房攝影的例子一樣,如果我們只知道一個人的乳房攝影結果,就算我告訴你乳房攝影篩檢乳癌的敏感性還有特異性,你還是不可能知道這個病人有乳癌的機率是多少!



用極端卻直觀的例子來說明。假設這個世界上根本就沒有人會得到肺栓塞,則不管D-dimer的結果是高還是低,病人是肺栓塞的機率就是0%!如果世界上每一個人都有肺栓塞,則不管D-dimer的結果是高還是低,病人肺栓塞的機率就是100%!



由此可見,除了D-dimer的結果以外,我們還需要知道世界上所有人裡面有多少人有肺栓塞,也就是必須要知道肺栓塞的「盛行率」(prevalence)。

2011年6月20日 星期一

《醫生你到底在想啥?》之流行病學及統計學理論最重要的一張圖表

●流行病學及統計學理論最重要的一張圖表



接下來要介紹的是我個人認為在流行病學及統計學理論都是最重要的一張圖表,也就是「2乘2表格」(2×2 table)。



2乘2表格其實跟我前面所畫的紅豆綠豆圖一樣,只是將具體的圖案或數字,化為簡單明瞭的代數。如果你有認真閱讀前面的部份,這個部分就很簡單了。



下面用乳房攝影篩檢乳癌作為例子,這樣你就可以知道前面我說每篩檢出一個乳癌的患者,就有九個健康女性要白白切一塊乳房來做病理檢查是怎麼算出來的。



我們利用乳癌患者及無乳癌者、乳房攝影陽性及陰性的兩種分類方式,可以得到以下四個族群:乳房攝影結果正確為陽性的乳癌患者(真陽性,a)、結果誤為陽性卻不是患者(偽陽性,b)、結果誤為陰性卻是患者(偽陰性,c)、結果為陰性也真的不是患者(真陰性,d)。

{###_elleryhuang/7/1024047227.jpg_###}



所有乳癌患者數為a+c,所有無乳癌者數為b+d。所有乳房攝影結果為陽性的人數是a+b,陰性人數是c+d。

{###_elleryhuang/7/1024047228.jpg_###}

2011年6月14日 星期二

《醫生你到底在想啥?》之中華民國曲線(ROC曲線)

●中華民國曲線(ROC curve)



我們可以回頭看剛剛的紅豆綠豆篩檢圖。現在你可以自由移動垂直的那條篩檢線。篩檢線越往左移動代表篩子的網目越小,你可以清楚的看到遺漏的紅豆越來越少(偽陰性率越來越低),被篩選出來的紅豆越來越多(敏感性越來越高)。但是,被誤篩出的綠豆則是越來越多,過濾掉的綠豆越來越少(特異性越來越低)。



相對的,當你篩選線慢慢往右移,也就是使用越來越大網目的篩子時,敏感性越來越低,但特異性卻越來越高(偽陽性率越來越低)。

{###_elleryhuang/7/1024047217.jpg_###}



如果我們分別記錄不同網目大小篩子的敏感性及特異性,就可以得到下面這張敏感性與特異性成負相關的圖(出處:Thomas B. Newman. Evidence-Based Diagnosis。經作者修改過):

{###_elleryhuang/7/1024047221.jpg_###}



從這張圖就可以很容易看出,敏感性越高,特異度也就越低,反之亦然。也就是說,敏感性與特異性,難以兩全。



不過,流行病學家跟統計學家還有我覺得這張圖看起來不太舒服,可能是他們有在玩股票吧!把橫軸座標特異性改成「1-特異性」。「1-特異性」其實就是「偽陽性率」,不過一般不喜歡正式使用這個名詞,因為容易引起混淆。



將橫座標從特異性改成「1-特異性」之後,整個製圖的過程就像下圖一樣(出處:Thomas B. Newman. Evidence-Based Diagnosis, p71。經作者修改過):

{###_elleryhuang/7/1024047220.jpg_###}



最後我們就會得到像下面這樣的圖:

{###_elleryhuang/7/1024047219.jpg_###}



這種圖,統計學上稱之為「接收者操作特徵曲線」(receiver operating characteristic curve)簡稱「ROC曲線」,非官方暱稱為「中華民國曲線」。



其實橫座標不用特異性而用「1-特異性」,也是有其意義的。



1-特異性,也就是偽陽性率。所謂偽陽性,其實就是「雜訊」。前面舉過相機底片的例子,相機底片越敏感(感光度越高),雜訊也就越多。這點從ROC曲線就可以很明顯的看出來。你想要篩出的紅豆,一定也會篩出更多綠豆。



假設今天紅豆及綠豆的大小分佈如下圖(出處:Thomas B. Newman. Evidence-Based Diagnosis。經作者修改過):

{###_elleryhuang/7/1024047224.jpg_###}





也就是說,所有的紅豆都比最大顆綠豆還要大;所有的綠豆都比最小顆的紅豆還要小。這樣我們就可以選擇一個恰當網目大小的篩子,完美的篩選出所有的紅豆而無所遺漏,同時也完美的篩掉所有的綠豆而沒有誤篩到紅豆湯中。這時,敏感性以及特異性都是100%。



在這種情況下,用篩子來從紅豆綠豆中篩檢出紅豆的ROC curve就如同下圖最左上方那條「完美的檢測」曲線一樣(出處:Thomas B. Newman. Evidence-Based Diagnosis。經作者修改過):

{###_elleryhuang/7/1024047222.jpg_###}





相對的,如果紅豆綠豆的大小分佈如下圖(出處:Thomas B. Newman. Evidence-Based Diagnosis。經作者修改過):

{###_elleryhuang/7/1024047223.jpg_###}



也就是綠豆跟紅豆大小分佈型態是完全一樣的,那麼想當然爾,不管你的篩子大小可以篩出所有紅豆之中多少比例的紅豆,你都同時會篩出所有綠豆中同樣比例的綠豆。也就是說,不管你用網目多大的篩子來篩豆子,結果都跟你用手直接隨機抓一把豆子一樣。這時,用大小來篩檢紅豆就是完全無效的。我們可以得到如上圖「根本沒用的檢測」一樣的ROC曲線。



如果像一開始所舉的例子一樣,紅豆大小的平均趨勢要比綠豆還大,但有些最小的紅豆比最大一些綠豆還要小。這時,我們就可以利用大小來篩檢紅豆,以使得篩檢過後的紅豆湯裡面,紅豆跟綠豆的比例較篩檢之前還高;但卻無法完全分離紅豆與綠豆。這時,ROC曲線就會介於完美的檢測與完全沒用的檢測之間。



其中越接近完美檢測的「Γ」型ROC曲線,代表篩檢的效能越高,篩檢後標的物(紅豆)相對於非標的物(綠豆)的比例也會提高較多(紅豆湯比較純)。



而越接近完全沒有用的檢測的「╱」型ROC曲線,代表篩檢的效能越低,篩檢後標的物相對於非標的物的比例只能提高一點點(紅豆湯比較不純)。

2011年6月9日 星期四

《醫生你到底在想啥?》之千金難買早知道……嗎?

你寧願得到一千美元,或是一次免費的全身電腦斷層掃瞄?在某個隨機訪問五百位美國人的電話調查中,百分之七十三的受訪者表示他們會選擇電腦斷層掃瞄……我寧願選擇付一千美元,避免接受這種篩檢——並安心地好好活著。

——捷爾德‧蓋格瑞澤(Gerd Gigerenzer,德國柏林普朗克人類發展研究院適應行為與認知中心主任)





這是一則發生在美國的真實故事。丹尼爾醫師眼前的這位老先生,徬徨地盯著他,希望丹尼爾醫師能夠告訴他,究竟該不該做PSA檢測?所謂PSA檢測,是測量男性血液中的攝護腺特異抗原(Prostate Specific Antigen),希望能早期發現攝護腺癌。因為攝護腺癌「通常」會製造出PSA,使得血中的PSA濃度升高。



沒想到,丹尼爾醫師卻堅定地告訴老先生:「根據我的專業知識,PSA檢測給你帶來的好處並不會大於壞處,因此我不建議你做這項檢測。」



後來,這位老先生被查出罹患攝護腺癌,而丹尼爾醫師,則因為他的「醫療疏失」而吃上官司,最後,丹尼爾醫師所任職的教學醫院必須賠償一百萬美元。(Gerd Gigerenzer 2009.半秒直覺)



丹尼爾醫師真的錯了嗎?



什麼是醫學篩檢?



故事中的PSA檢測,是一種醫學篩檢。什麼是醫學篩檢呢?我們可以用篩紅豆的例子來理解。



今天我要煮一鍋紅豆湯,但在拿紅豆的時候,不小心把紅豆和綠豆混在一起了,面對著眼前這鍋混雜在一起的紅豆與綠豆,我要怎麼樣揀選出我要的紅豆,順利煮出一鍋紅豆湯呢?



當然,我可以憑著愚公移山的精神,一顆一顆用眼睛分辨是紅豆還是綠豆,用手工揀選出紅豆來。這麼做,就可以一顆紅豆也不遺漏地煮出一鍋純粹只有紅豆的紅豆湯──但是這麼做太浪費時間了!有沒有其他方法,可以快速地篩選出紅豆呢?



用篩子!



一搬來說,紅豆比綠豆大,因此,我們可以選用適當大小的篩子,將紅豆給篩出。而這個過程,就叫做「篩檢」(screening)。



{###_elleryhuang/7/1024047217.jpg_###}







以上圖的例子來看,紅豆綠豆各有37顆,而平均來講,紅豆比綠豆還大顆。但是,我們可以看到,並不是所有的紅豆都一樣大,也不是所有的綠豆都一樣小。紅豆及綠豆的大小分別呈現常態分佈。因此,若我們以圖中垂直線所劃分出來的大小來篩檢紅豆,就會有兩顆比篩子孔還小的紅豆被我們遺漏了(不該被篩掉而被篩掉,即偽陰性);同時,也會有八顆比篩子孔還大的綠豆被我們誤篩出來(不該被篩出而被篩出,即偽陽性)。經由這次篩檢,我浪費了兩個紅豆,且煮出來的紅豆湯中,混雜了八顆綠豆。我們要怎麼樣表示這次篩檢的成果呢?



我的目的是要盡量篩檢出紅豆來,在這次篩檢中,總共37顆紅豆,篩檢出了35顆(真陽性),我們可以說,這次篩檢對於紅豆的「敏感度」(sensitivity)為35除以37,也就是94.6%。敏感度越高,代表可以篩出越高比例的紅豆來;相對來說,低的敏感度,代表篩出篩檢對象的成效不彰。



除了盡量篩檢出紅豆來以外,同時也得盡量將我所不想要的綠豆給篩掉,在37顆綠豆當中,有29顆正確地被我篩掉了(真陰性),我們可以說,這次篩檢對於綠豆的「特異度」(specificity)為29除以37,也就是78.4%。特異度越高,代表能越正確地將欲篩除的目標過濾掉。



好,現在我們來到實際的臨床決策情形。今天有一位健健康康、沒任何乳房症狀的50歲女性,為了提早篩檢出自己是否有乳癌,而做了「乳房攝影」。針對40歲以上女性使用乳房攝影來篩檢乳癌,其敏感度約75.6%,特異度約94.9%。(Kavanagh AM 2000. The sensitivity, specificity, and positive predictive value of screening mammography and symptomatic status. Journal of Medical Screening)這位女性的檢查結果為陽性,即乳房攝影看起來像是乳癌,那麼,這位女性真正有乳癌的機率是多少?75.6%嗎?錯!94.9%嗎?也錯!答案是,不知道!



回到我們簡單的豆子圖,上面雖然介紹了敏感度以及特異度的概念,但這兩個概念都是經由事後計算篩選結果,統計分析而得到的。在實際篩選紅豆的過程中,我們最需要知道的資訊是:所篩出來的豆子中,有多少是紅豆?以圖中的例子來看,總共篩出了43顆豆子,其中有35顆是我想要的紅豆,也就是說,在我最後所煮的紅豆湯中,紅豆所佔的比例是81.4%,這個概念,就叫做「陽性檢測率」(Positive predictive value)。陽性檢測率的大小,會隨著篩檢對象的相對族群比例而改變。例如,若我們將圖中的每一顆紅豆都當成是十顆紅豆,那麼所篩出的紅豆就會變成350顆,而誤篩出的綠豆還是八顆,所以,所有篩選出的豆子中,真正是紅豆的比率,也就是陽性檢測率,就提高到97.8%(350/358)。



在乳癌的例子中,乳癌盛行率(prevalence,具有某疾病者在整個族群中所佔有的比率)大約是千分之6.8,計算後可得陽性檢測率為9.2%,因此,這位女性有乳癌的機率,從原本的千分之6.8,因為乳房攝影結果為陽性,而上升到9.2%。



同樣的檢測工具,敏感度以及特異度通常是固定的,因此,醫學上評估某種篩檢工具的成效如何,看的就是這個篩檢工具的敏感度以及特異度。但是,在臨床實際的篩檢過程中,更重要的卻是結合敏感度、特異度,以及篩檢對象的疾病盛行率去評估陽性檢測率,這樣我們才能得到一個真正有用的訊息──若是篩檢結果為陽性,那麼真正得病的機率是多少?



但是,真正的臨床篩檢,並沒有這麼單純。



回到開頭的故事,丹尼爾醫師為何冒著吃上官司的風險,建議病人不要做PSA攝護腺癌篩檢?



理由一:假陽性



如同前面對醫學篩檢的介紹,我們知道,篩檢一定會有假陽性的存在。那為什麼我們要「篩檢」癌症,而不直接「診斷」癌症?因為癌症的診斷通常需要組織學的病理診斷──簡單的說,就是用一根粗粗的針,挖你身上的一塊組織,再放到顯微鏡下看看這些組織細胞是不是長得惡形惡狀的癌症。而因為我們都不想變得千瘡百孔──讓醫師在我們身上所有可能長癌症的地方挖一塊組織下來檢查,所以只得使用各種「非侵入性」的癌症篩檢工具,來提早發現癌症,例如上述篩檢攝護腺癌的PSA抽血檢測、篩檢乳癌的乳房X光攝影,或是篩檢子宮頸癌的子宮頸抹片檢查。



只要是篩檢,就無可避免會有假陽性產生。在大部份的癌症篩檢中,所有篩檢為陽性的病人,接著就是進行組織學的確診──在你身上挖一塊肉。在上述乳房攝影的例子當中,陽性檢測率只有百分之9.2,也就是說,每篩檢出一個乳癌的病人,就有九個健健康康的人要無緣無故地被挖上一塊乳房組織!



理由二:過度診斷(overdiagnosis)及過度治療(overtreatment)



醫學篩檢,還有個比篩紅豆還複雜的問題。所謂假陽性,就是事實上沒有癌症,卻被懷疑有癌症而必須做進一步侵入性檢查的病人。而真陽性呢?那些被篩檢出為癌症,並且在後續的組織學病理檢查中確診為癌症的病人,就真的是癌症嗎?沒錯,組織學確診為癌症的病人,當然就是癌症,只是,這個癌症的概念,可能與原本的概念不同了。



在癌症篩檢出現以前,醫生們只能等到癌症在病人身體造成症狀,甚至是造成死亡,再對其進行組織學的檢查或大體解剖,以確診為癌症。接著,醫生們再研究這些癌症的各種特性,例如造成的症狀、五年存活率、治療方法、治癒率等等,最後形成各種癌症的概念及描述。



但是,在癌症篩檢出現之後,醫生們藉由癌症篩檢,發現了許多沒有造成症狀的癌症,那麼,我們能保證這些經由篩檢發現的無症狀癌症,跟原本研究的癌症特性是一樣的嗎?答案是,不行。



最知名的例子,就屬攝護腺癌了。根據美國的研究報告指出,男人一生得攝護腺癌的機率高達60~70%!而其中只有1/30的患者會死於攝護腺癌,另外,大部份的攝護腺癌是不會造成任何症狀的(Brawley OW 2009. “Screening for Prostate Cancer” CA: A Cancer Journal for Clinicians)!可惜的是,我們並沒有辦法分辨出哪些攝護腺癌會造成症狀甚至死亡,哪些是無害的。但是,我們發現,經由篩檢而後診斷出來的攝護腺癌,有較高比例的病人,具有無害的病灶,並不會造成症狀以及死亡。



利用下圖來解釋。圖中紅線條為成長速度快的腫瘤,藍線為成長速度慢的腫瘤。如圖所示,三個成長速度快的腫瘤之中,有兩個在篩檢前就已經造成症狀並且診斷出來,只有一個能被提早篩檢出來。而在三個成長速度慢的腫瘤之中,有兩個被篩檢出來。這是因為成長速度慢的腫瘤,其從發病到出現症狀的「無症狀帶病期」比成長速度快的腫瘤還要長,而所謂「無症狀帶病期」,就是我們篩檢的目標。因此,在一個隨機的時間點進行篩檢,便會有較高的機率篩檢出成長速度較慢、對病人較無害的腫瘤。這在流行病學上稱為「長度-時間偏差」(Length-time bias)。



{###_elleryhuang/7/1024047218.jpg_###}







這種將許多無害的病灶診斷為傳統惡性病灶疾病概念的行為,就叫做「過度診斷」。而對於這些過度診斷的病人進行治療,則是「過度治療」。2009年,《英國醫學雜誌》所發表的一篇統計英國等七個地區乳房攝影篩檢的結果指出,大約每三個經由乳房攝影篩檢而後診斷出來的乳癌病人,就有一個是過度診斷,而後進行過度治療(Jørgensen KJ 2009. Overdiagnosis in publicly organised mammography screening programmes: systematic review of incidence trends. BMJ)。



治療有什麼不好呢?以攝護腺癌為例,不論是化療還是手術切除,都有很高的比例會造成病人產生性無能、尿失禁等副作用,而對75歲以上的老人進行攝護腺切除手術,甚至還有1%的機率會導致死亡(Brawley OW 2009. “Screening for Prostate Cancer” CA: A Cancer Journal for Clinicians)。



理由三:篩檢所造成的傷害



醫學篩檢屬於醫療介入,因此也和任何醫療介入一樣,都有可能對病人產生傷害。例如乳房攝影會使病人暴露於X光之下,可能造成細胞傷害。另外,對於肺癌篩檢的研究也指出,頻繁地以胸部X光篩檢肺癌的對象,比起以較低頻率篩檢的對照組來說,死於肺癌的比例竟然比較高(Manser R. Screening for lung cancer. Cochrane Database of Systematic Reviews 2004)!雖然造成此一現象的原因尚未明朗,但至少這個研究直接有力地證明了,某些癌症篩檢可能帶給人們壞處大於好處!



To screen, or not to screen. That is a question.



所以,癌症篩檢給我們的壞處大於好處,我們應該對所有的癌症篩檢敬而遠之嗎?切記,在倒髒洗澡水的時候,不要連嬰兒也給一起倒掉了!



誠如以上所說,癌症篩檢有許多潛在的壞處,但其帶給我們的好處顯而易見──早期發現,早期治療。癌症篩檢沒有絕對的好或不好,一切只看我們怎麼去運用。並且,癌症這個概念事實上是由子宮頸癌、肝癌等各式各樣的癌症所集合而成的一個概念。事實上,每一種癌症各自有著不同的特性;甚至,各個癌症底下還可以依照許多不同的分期、病理學型態,以及患病者的種族、危險因子等等,來分成不同的族群對象。而針對不同的族群對象,使用癌症篩檢所產生的利弊得失都是不同的,必須依靠良好的研究證據來選擇是否該篩檢。這就是近十幾年來風行全球醫界的「實證醫學」觀念。例如,對於攝護腺癌的PSA篩檢以及對於乳癌的乳房攝影篩檢是否好處大於壞處,還存在爭議,但像是子宮頸癌的子宮頸抹片篩檢,雖然還沒有最高等級的隨機臨床對照試驗證據,但許多間接證據使得目前醫學界認為子宮頸抹片篩檢是對婦女有益的。



回頭來看我們的丹尼爾醫師。丹尼爾醫師秉持著實證醫學的精神,以病人的利益為優先考慮,根據現有的證據,做出了不建議進行PSA攝護腺癌篩檢的建議,沒想到最後的結果,卻是吃上官司,甚至敗訴。類似的事情一再發生,導致醫生們被迫行使「防衛性醫療」──為了防止身陷醫療糾紛的訴訟,而採取消極卻非對病人最有益的醫療行為。



想像一下今天有人給你一個幾個不同網目大小的篩子,要你在混雜的紅豆綠豆之中,篩出紅豆來煮紅豆湯。但是,只要你遺漏了一顆紅豆,這顆紅豆就會爆炸把你給炸死!



所以你為了避免自己死掉,就選擇網目很小很小的篩子來篩豆子,以免漏篩紅豆把自己給炸死。



雖然你避免了自己因為漏篩紅豆而炸死,但廚房卻傳來爆炸的聲音,原來如果有綠豆被混到紅豆湯裡面煮,也會爆炸!



你心裡只想,關我屁事,反正我不要漏篩紅豆被炸死就好了,反正喝紅豆湯的也不是我!難道我真的有那麼偉大可以為了拯救別人被綠豆炸死而選擇讓自己被紅豆炸死?



同樣的,如果社會以及司法只會結果論的給沒有提早篩檢出疾病的醫生坐牢或者傾家蕩產的懲罰,那醫生為了自保也只得盡其所能的避免遺漏診斷,只得無奈的犧牲病人的利益了。



其實你算幸運的了,雖然大家都很聰明的使用網目很小的篩子,以避免漏篩紅豆而把自己炸死,但總是有少部分的人運氣不好,因為沒有篩到生下來就是那麼小顆的紅豆而被炸死。



到最後,你想還會有人要做篩紅豆的工作嗎?



這也就是當今台灣醫學系的錄取分數一反常態的被牙醫系給超越的主要原因。也是台灣淪落到快找不到婦產科醫師接生,中部某醫學中心小兒科沒有住院醫師只有實習醫師值班的原因。





●敏感性、特異性,難以兩全其美



像上面怕遺漏紅豆炸死自己的人一樣,選擇較小網目的篩子來篩豆子,就可以把所有紅豆之中,較大比例的紅豆給篩選出來,也就是敏感性會比較高。這樣也就可以達成你的目的,讓遺留下來的紅豆佔所有紅豆的比例比較少,也就是(1-敏感度)或偽陰性率會比較低。



但是,用較小網目的篩子來篩豆子,代價就是在所有的綠豆之中,成功被篩掉的比例降低了,也就是特異性被犧牲而比較低。也可以說是有比較高比例的綠豆會被誤篩出來,也就是(1-特異性)或偽陽性率會比較高。



就好像相機底片一樣,有不同的「感光度」。感光度的英文叫sensitivity,也就是敏感性了。在室內比較暗的時候,選擇比較高的感光度,例如ISO400,可以讓相機對光比較敏感,就可以用比較短時間的快門,相片也比較不會糊掉。但是,高感光度卻也讓雜訊增多,讓照片看起來比較粗糙。

2011年6月5日 星期日

中醫飲食宜忌與生活品質、辯證論治與死亡率

最近在跟中醫門診,幾乎每一個病人,主治醫師都會跟他說不要吃涼性的水果、生冷的蔬菜、燥熱的例如烤炸辣等食物。



學了西醫的實證醫學之後,我不再只是在乎藥物的效果以及副作用,還會在乎醫生所做的每一個檢查、醫生所說的每一句指示等等所有醫療介入(intervention),給病人帶來的好處是什麼,壞處又是什麼。



西醫評估醫療介入的終極指標(outcome)有兩項,一是病人的死亡率,二是病人的生活品質。



對於醫療介入的研究如果沒辦法評估死亡率及生活品質,而使用其他各種指標來代替,一定要被證明或不證自明與死亡率以及生活品質有關,才有意義。



例如像是很多降血壓藥的研究,結果只是證明服用藥物的病人血壓會降得比安慰劑還低,並沒有直接證明病人吃了藥能活得比較久,或生活品質比較高。



但是,這是因為已經有很多研究,證明了血壓降低可以減少中風、心肌梗塞、腎臟病的機率,預防病人生活品質惡化,以及降低死亡率。



所以為了方便、省錢等理由,降血壓藥物的研究可以只以病人的血壓作為指標,而不看死亡率及生活品質。



當然,能夠評估死亡率及生活品質的研究,一定是更優秀、更可信、更有臨床應用價值的。



以降血壓藥的例子來說,我們難保所研究的新藥有什麼未知的副作用,會增加病人的死亡率,或降低病人的生活品質。



因此,其實大部分有錢、有實力的大型研究,都會盡量去評估死亡率及生活品質等兩大終極指標。





在「物理教授」王唯工的著作《氣的樂章》的封面,有著這麼一句話:「西醫是治你不死的學問,中醫是讓人活得快樂的學問」。



我不知道這句話是出自王教授本人,還是出版社的人加上去的。



但總之,這句話絕對是無的放矢,信口雌黃。



姑且不論後半句對於中醫的宣稱,前半句所謂「西醫是治你不死的學問」就絕對是句不實的聳動標語。



不論是藥物、檢查、醫療體制、公衛政策、還是醫生的衛教,現代實證醫學都強力要求必須要有證據證明其總體而言,能改善死亡率或生活品質。





自從西醫的勢力壓迫中醫開始,中醫就一貫的使用如下的說詞來捍衛自己的勢力:「西醫只能延長生命,讓病人痛苦的活著;中醫卻注重病人的生活品質,讓病人快樂的活著。」



姑且不論對於西醫的污衊是否正確(我都用「污衊」這個詞了還說是「姑且不論」,真不要臉),單論中醫對自己注重病人生活品質的宣稱,就有值得商議之處。





當然,中醫實證醫學的概念還不流行,因此我在這裡也不強求中醫要什麼臨床隨機對照試驗。



但是,單從臨床的觀察,以及過去身為中醫病人的經驗來看,就中醫的飲食宜忌而言,大部分的中醫在衛教病人飲食禁忌的時候,壓根兒沒有考慮到他們所說的話,會對病人的生活品質直接造成不良的影響。



我在這裡也不強求中醫飲食宜忌要什麼隨機對照試驗,姑且假設違反中醫針對不同體質的病人所規定的飲食宜忌,真的會造成身體不好的影響,並且假設會降低病人的生活品質。



然而,回到一開頭我的跟診經驗,主治醫師幾乎每個病人都隨口交代不要吃涼性的水果、生冷的蔬菜、燥熱的例如烤炸辣等食物。



說這些話很容易,但要是真的嘗試過遵守,就能體會遵守這樣飲食宜忌的生活品質,是非常痛苦的。



當然,假設違反這樣的飲食宜忌所造成的身體影響是真的,那麼犧牲遵守飲食宜忌所降低的生活品質,「有可能」是值得的。



但是,問題就在於,飲食宜忌完全沒有隨機對照試驗去證實他的真假,而只奠基在傳統中醫的臨床經驗之上,固有一定的可能是錯的,當然也有可能是真的。



只是,病人遵守飲食宜忌所犧牲的生活品質,卻是明顯的多。





事實上,要說中醫的飲食宜忌,真的完全奠基在臨床經驗之上,也不那麼盡然。



在中醫圈混久了,思想稍微敏銳的人,一定會發現,中醫的飲食宜忌的制訂,充滿了許多人為的、隨機的、想當然爾的因素在內。



也因此,十個中醫裡面,大概有九個中醫所說的飲食宜忌會不一樣。



大家可能也有這樣的經驗,同樣一個食物,甲中醫說不能吃,乙中醫說隨便吃,丙中醫說盡量吃。





文末,再透露給大家一個中醫小撇步。



就中醫而言,不論是飲食宜忌還是藥物功效,只要是說得出一番道理的,通常都是假的。



反之,那些沒什麼道理可言的東西,很可能才是真正寶貴的臨床經驗,才是老祖宗智慧的結晶。





例如木瓜長得像又大又下垂的乳房,乳房屬肝,肝色為青,因此青木瓜能豐胸。



這種東西,沒效的機會比較高。





當然,這個小撇步使用起來也不是那麼容易。



因為中醫已經發展出一套寄生理論,可以寄生在任何隨機指定的因果關係上面。



所以幾乎所有的中醫療效,都有一番大道理。





但隨著你在中醫圈混的時數越久,只要能抱持清晰的思考,就自然會培養出一股直覺,能夠大略分辨哪些是唬爛得來的假臨床經驗,哪些才是後來才經過唬爛包裝的真正的臨床經驗。