0

0
0

文字

分享

0
0
0

抽血可以輔助乳癌檢測? 從德國烏龍事件談被誇大的科學新聞

旻諭_96
・2019/11/22 ・2535字 ・閱讀時間約 5 分鐘 ・SR值 579 ・九年級

今 (2019) 年二月,德國海德堡大學附屬婦科醫院發布新聞稿,聲稱教授索恩 (Christoph Sohn) 的研究團隊研發出一項新技術:以「抽血檢查」偵測乳癌細胞。

什麼?!只要抽血就可以知道有沒有得乳癌嗎?

該篇新聞稿內容指出,雖然這項技術不能直接取代乳房 X 光攝影檢查,但可以當作早期檢測,且偽陽率(沒有乳癌卻被判斷成有乳癌的機率)只有乳房 X 光攝影檢查的一半。當時的新聞稿宣稱這項檢測是「乳癌檢測的重大里程碑」,並將在年底投入臨床應用。

索恩的研究團隊研發出一項新技術:以「抽血檢查」偵測乳癌細胞。當時的新聞稿宣稱這項檢測是「乳癌檢測的重大里程碑」,並將在年底投入臨床應用 。圖/basker_dhandapani @pixabay

奇怪的是,索恩同 (2) 月在德國杜塞道夫的另一場研討會中,說法又大不相同。根據德國線上雜誌 MedWatch 的報導,索恩的演講投影片上顯示該測試的特異度為 45~73%,相當於高達 55% 的偽陽率,幾乎是每兩位女性就有一位會被判斷為乳癌患者。看來這個以抽血看有沒有得乳癌的方法還不是太可靠註1

哪個環節出了問題?科學公關化妝化過頭

從上述的案例中,我們可以發現,這項「用血液檢測有沒有得乳癌」的檢測方式,明明有高達 55% 的偽陽率,卻在醫院發布的新聞稿中,被說是「乳癌檢測的重大里程碑」,嚴重地誇大了好幾個層級。但究竟為什麼新聞稿跟原始研究可以差這麼多呢?

-----廣告,請繼續往下閱讀-----

這攸關於「公關」的角色。

在科學研究組織中的公關單位,必須擔負「提升組織名譽」的重擔。現在各大學相互競爭學術排名的情況下,大學公關透過各方管道(包含亮眼的科學研究成果)來「行銷自己」變得十分重要。因此,科研組織中的公關不僅要能夠把高深複雜的科學知識講到民眾可以理解,還要順勢「宣傳自己」一波,幫科學研究成果「化個妝」,替學校爭取好名聲。

科研組織中的公關不僅要能夠把高深複雜的科學知識講到民眾可以理解,還要順勢「宣傳自己」一波,幫科學研究成果「化個妝」,替學校爭取好名聲。圖/MichaelGaida @pixabay

然而,科學公關作為「學術界」和「媒體界」的橋樑 (Sumner et al, 2014),時常會遇到裡外不是人的窘境。公關單位一方面必須把科學知識講簡單,一方面又要擔任科研組織的化妝師,行銷自己、提高組織的知名度;因此常常沒辦法站在客觀與批判的角度檢視科學研究成果。容易造成問題的情況是,有時候公關單位會化妝化過頭,過去研究顯示,學術單位公關發布的新聞稿也常有機會成為錯誤的資訊來源本身。

誇大的科學新聞不是記者的錯?公關也可能參一腳

英國卡迪夫大學腦研究成像中心 (Cardiff University Brain Research Imaging Centre) Petroc Sumner 教授的研究團隊發現,與健康科學的新聞中,容易出現三種常見的錯誤:

  1. 過度延伸的建議(呼籲讀者改變行為)(exaggerated advice)
  2. 把「相關」描述成「因果關係」(exaggerated causal claims)
  3. 把「動物」研究成果不當延伸,應用在人類身上 (exaggerated inference to humans from animal research)

然而,研究發現這些在科學新聞中被扭曲、誇大的部分,往往在公關稿就已經出現了。

-----廣告,請繼續往下閱讀-----
研究發現這些在科學新聞中被扭曲、誇大的部分,往往在公關稿就已經出現了。圖/截圖自參考資料 3

研究團隊從英國排名前 20 名的大學取得共 462 篇和健康相關的公關稿,再分別往前往後挖看看同一個研究的原始論文和科學新聞。(原始論文是一定有啦,但有些公關稿不一定會成為新聞題材。)

研究團隊比較了原始論文、公關稿和科學新聞三種版本的文章,發現有 40% 的公關稿含有過度延伸的建議;33% 的公關稿含有把「相關」描述成「因果關係」的錯誤;36% 的公關稿含有把「動物」研究成果不當延伸,應用在人類身上的錯誤。

研究更進一步顯示,當公關稿含有這些誇大的錯誤時,分別有 58%、81% 和 86% 的科學新聞會也一樣會延續這三種類型的錯誤。

這張圖的上、中、下,分別代表公關稿或新聞稿包含「過度延伸的建議」、「把相關描述成因果關係」、「把動物研究成果不當延伸,應用在人類身上」。右半邊的白色長條圖示,代表當公關稿內含有誇大的錯誤時,分別有 58%、81% 和 86% 的科學新聞會也一樣會延續這三種類型的錯誤。圖/參考資料 3 圖 2

讀科學新聞要小心,遇到誇張的研究結果要有所警惕

文章看到這裡,或許你會很驚訝:「原來我以前都錯怪記者了,公關稿也可能有過度延伸的問題。」但這項研究結果也不是要你開始改罵公關單位,畢竟公關單位常常有和其他大學競爭的壓力。

-----廣告,請繼續往下閱讀-----

但其實民眾如何理解科學新聞的內容,會直接影響到民眾的實際行為。因此,科學新聞怎麼描述健康相關資訊,真的是一件不能馬虎的事情。(就好比看到抽血可以驗乳癌就開心以為不用去照 X 光檢查,或是看到「常咀嚼固態食物可預防失智」就不顧吃什麼健康不健康的嚼嚼就對了……)

「常咀嚼固態食物可預防失智」並不代表就不用管吃什麼健康嚼嚼嚼嚼就對了。圖/Comfreak @pixabay

不過更聰明的你一定想到了這個解方:當我們看到誇張的科學研究結果,別看到標題就自己腦補胡亂相信,要記得仔細看看內文,有沒有把相關研究講成因果關係,或是把動物研究結果延伸到人類身上(畢竟只有 10% 的非人類研究結果可以成功類推到人類身上)。如此一來,就算遇到了懸疑的科學新聞,你也有可以判斷真偽的能力!

註解

  1. 儘管索恩在研討會的記者會中遭受質疑,他仍拒絕回答任何與該測驗「偽陽率」相關的問題。五月,海德堡大學附屬婦科醫院認為,索恩必須為他的錯誤言論負責。經過幾個月的調查,大學委員會在上個月底舉行記者會,說明調查結果證實索恩宣稱以抽血檢測乳癌是「嚴重的不當行為」。根據報導,索恩已遭停職(包含教學與研究)3 個月,並即將接受大學的紀律調查。

參考資料

  1. German university finds ‘severe’ misconduct by researcher who promoted questionable cancer blood test. Science, 2019.10.25
  2. FORSCHER DES UNIVERSITÄTSKLINIKUMS HEIDELBERG ENTWICKELN ERSTEN MARKTFÄHIGEN BLUTTEST FÜR BRUSTKREBS. Newsroom UKHD, 2019.2.21
  3. Sumner, P., Vivian-Griffiths, S., Boivin, J., Williams, A., Venetis, C. A., Davies, A., … & Boy, F. (2014). The association between exaggeration in health related science news and academic press releases: retrospective observational study. Bmj, 349, g7015.
文章難易度
旻諭_96
14 篇文章 ・ 2 位粉絲
大學主修生科,研所跳槽科學教育,目前正努力想要聰明又科學的活著。

0

3
3

文字

分享

0
3
3
圖形處理單元與人工智慧
賴昭正_96
・2024/06/24 ・6944字 ・閱讀時間約 14 分鐘

-----廣告,請繼續往下閱讀-----

  • 作者/賴昭正|前清大化學系教授、系主任、所長;合創科學月刊

我擔心人工智慧可能會完全取代人類。如果人們能設計電腦病毒,那麼就會有人設計出能夠自我改進和複製的人工智慧。 這將是一種超越人類的新生命形式。

——史蒂芬.霍金(Stephen Hawking) 英國理論物理學家

大約在八十年前,當第一台數位計算機出現時,一些電腦科學家便一直致力於讓機器具有像人類一樣的智慧;但七十年後,還是沒有機器能夠可靠地提供人類程度的語言或影像辨識功能。誰又想到「人工智慧」(Artificial Intelligent,簡稱 AI)的能力最近十年突然起飛,在許多(所有?)領域的測試中擊敗了人類,正在改變各個領域——包括假新聞的製造與散佈——的生態。

圖形處理單元(graphic process unit,簡稱 GPU)是這場「人工智慧」革命中的最大助手。它的興起使得九年前還是個小公司的 Nvidia(英偉達)股票從每股不到 $5,上升到今天(5 月 24 日)每股超過 $1000(註一)的全世界第三大公司,其創辦人(之一)兼首席執行官、出生於台南的黃仁勳(Jenson Huang)也一躍成為全世界排名 20 內的大富豪、台灣家喻戶曉的名人!可是多少人了解圖形處理單元是什麼嗎?到底是時勢造英雄,還是英雄造時勢?

黃仁勳出席2016年台北國際電腦展
Nvidia 的崛起究竟是時勢造英雄,還是英雄造時勢?圖/wikimedia

在回答這問題之前,筆者得先聲明筆者不是學電腦的,因此在這裡所能談的只是與電腦設計細節無關的基本原理。筆者認為將原理轉成實用工具是專家的事,不是我們外行人需要了解的;但作為一位現在的知識分子或公民,了解基本原理則是必備的條件:例如了解「能量不滅定律」就可以不用仔細分析,即可判斷永動機是騙人的;又如現在可攜帶型冷氣機充斥市面上,它們不用往室外排廢熱氣,就可以提供屋內冷氣,讀者買嗎?

CPU 與 GPU

不管是大型電腦或個人電腦都需具有「中央處理單元」(central process unit,簡稱 CPU)。CPU 是電腦的「腦」,其電子電路負責處理所有軟體正確運作所需的所有任務,如算術、邏輯、控制、輸入和輸出操作等等。雖然早期的設計即可以讓一個指令同時做兩、三件不同的工作;但為了簡單化,我們在這裡所談的工作將只是執行算術和邏輯運算的工作(arithmetic and logic unit,簡稱 ALU),如將兩個數加在一起。在這一簡化的定義下,CPU 在任何一個時刻均只能執行一件工作而已。

-----廣告,請繼續往下閱讀-----

在個人電腦剛出現只能用於一般事物的處理時,CPU 均能非常勝任地完成任務。但電腦圖形和動畫的出現帶來了第一批運算密集型工作負載後,CPU 開始顯示心有餘而力不足:例如電玩動畫需要應用程式處理數以萬計的像素(pixel),每個像素都有自己的顏色、光強度、和運動等, 使得 CPU 根本沒辦法在短時間內完成這些工作。於是出現了主機板上之「顯示插卡」來支援補助 CPU。

1999 年,英偉達將其一「具有集成變換、照明、三角形設定/裁剪、和透過應用程式從模型產生二維或三維影像的單晶片處理器」(註二)定位為「世界上第一款 GPU」,「GPU」這一名詞於焉誕生。不像 CPU,GPU 可以在同一個時刻執行許多算術和邏輯運算的工作,快速地完成圖形和動畫的變化。

依序計算和平行計算

一部電腦 CPU 如何計算 7×5+6/3 呢?因每一時刻只能做一件事,所以其步驟為:

  • 計算 7×5;
  • 計算 6/3;
  • 將結果相加。

總共需要 3 個運算時間。但如果我們有兩個 CPU 呢?很多工作便可以同時(平行)進行:

-----廣告,請繼續往下閱讀-----
  • 同時計算 7×5 及 6/3;
  • 將結果相加。

只需要 2 個運算時間,比單獨的 CPU 減少了一個。這看起來好像沒節省多少時間,但如果我們有 16 對 a×b 要相加呢?單獨的 CPU 需要 31 個運算的時間(16 個 × 的運算時間及 15 個 + 的運算時間),而有 16 個小 CPU 的 GPU 則只需要 5 個運算的時間(1 個 × 的運算時間及 4 個 + 的運算時間)!

現在就讓我們來看看為什麼稱 GPU 為「圖形」處理單元。圖一左圖《我愛科學》一書擺斜了,如何將它擺正成右圖呢? 一句話:「將整個圖逆時針方向旋轉 θ 即可」。但因為左圖是由上百萬個像素點(座標 x, y)組成的,所以這句簡單的話可讓 CPU 忙得不亦樂乎了:每一點的座標都必須做如下的轉換

x’ = x cosθ + y sinθ

y’ = -x sinθ+ y cosθ

-----廣告,請繼續往下閱讀-----

即每一點均需要做四個 × 及兩個 + 的運算!如果每一運算需要 10-6 秒,那麼讓《我愛科學》一書做個簡單的角度旋轉,便需要 6 秒,這豈是電動玩具畫面變化所能接受的?

圖形處理的例子

人類的許多發明都是基於需要的關係,因此電腦硬件設計家便開始思考:這些點轉換都是獨立的,為什麼我們不讓它們同時進行(平行運算,parallel processing)呢?於是專門用來處理「圖形」的處理單元出現了——就是我們現在所知的 GPU。如果一個 GPU 可以同時處理 106 運算,那上圖的轉換只需 10-6 秒鐘!

GPU 的興起

GPU 可分成兩種:

  • 整合式圖形「卡」(integrated graphics)是內建於 CPU 中的 GPU,所以不是插卡,它與 CPU 共享系統記憶體,沒有單獨的記憶體組來儲存圖形/視訊,主要用於大部分的個人電腦及筆記型電腦上;早期英特爾(Intel)因為不讓插卡 GPU 侵蝕主機的地盤,在這方面的研發佔領先的地位,約佔 68% 的市場。
  • 獨立顯示卡(discrete graphics)有不與 CPU 共享的自己專用內存;由於與處理器晶片分離,它會消耗更多電量並產生大量熱量;然而,也正是因為有自己的記憶體來源和電源,它可以比整合式顯示卡提供更高的效能。

2007 年,英偉達發布了可以在獨立 GPU 上進行平行處理的軟體層後,科學家發現獨立 GPU 不但能夠快速處理圖形變化,在需要大量計算才能實現特定結果的任務上也非常有效,因此開啟了為計算密集型的實用題目編寫 GPU 程式的領域。如今獨立 GPU 的應用範圍已遠遠超出當初圖形處理,不但擴大到醫學影像和地震成像等之複雜圖像和影片編輯及視覺化,也應用於駕駛、導航、天氣預報、大資料庫分析、機器學習、人工智慧、加密貨幣挖礦、及分子動力學模擬(註三)等其它領域。獨立 GPU 已成為人工智慧生態系統中不可或缺的一部分,正在改變我們的生活方式及許多行業的遊戲規則。英特爾在這方面發展較遲,遠遠落在英偉達(80%)及超微半導體公司(Advance Micro Devices Inc.,19%,註四)之後,大約只有 1% 的市場。

-----廣告,請繼續往下閱讀-----
典型的CPU與GPU架構

事實上現在的中央處理單元也不再是真正的「單元」,而是如圖二可含有多個可以同時處理運算的核心(core)單元。GPU 犧牲大量快取和控制單元以獲得更多的處理核心,因此其核心功能不如 CPU 核心強大,但它們能同時高速執行大量相同的指令,在平行運算中發揮強大作用。現在電腦通常具有 2 到 64 個核心;GPU 則具有上千、甚至上萬的核心。

結論

我們一看到《我愛科學》這本書,不需要一點一點地從左上到右下慢慢掃描,即可瞬間知道它上面有書名、出版社等,也知道它擺斜了。這種「平行運作」的能力不僅限於視覺,它也延伸到其它感官和認知功能。例如筆者在清華大學授課時常犯的一個毛病是:嘴巴在講,腦筋思考已經不知往前跑了多少公里,常常為了追趕而越講越快,將不少學生拋到腦後!這不表示筆者聰明,因為研究人員發現我們的大腦具有同時處理和解釋大量感官輸入的能力。

人工智慧是一種讓電腦或機器能夠模擬人類智慧和解決問題能力的科技,因此必須如人腦一樣能同時並行地處理許多資料。學過矩陣(matrix)的讀者應該知道,如果用矩陣和向量(vector)表達,上面所談到之座標轉換將是非常簡潔的(註五)。而矩陣和向量計算正是機器學習(machine learning)演算法的基礎!也正是獨立圖形處理單元最強大的功能所在!因此我們可以了解為什麼 GPU 會成為人工智慧開發的基石:它們的架構就是充分利用並行處理,來快速執行多個操作,進行訓練電腦或機器以人腦之思考與學習的方式處理資料——稱為「深度學習」(deep learning)。

黃仁勳在 5 月 22 日的發布業績新聞上謂:「下一次工業革命已經開始了:企業界和各國正與英偉達合作,將價值數萬億美元的傳統資料中心轉變為加速運算及新型資料中心——人工智慧工廠——以生產新商品『人工智慧』。人工智慧將為每個產業帶來顯著的生產力提升,幫助企業降低成本和提高能源效率,同時擴大收入機會。」

附錄

人工智慧的實用例子:下面一段是微軟的「copilot」代書、谷歌的「translate」代譯之「one paragraph summary of GPU and AI」。讀完後,讀者是不是認為筆者該退休了?

-----廣告,請繼續往下閱讀-----

GPU(圖形處理單元)和 AI(人工智慧)之間的協同作用徹底改變了高效能運算領域。GPU 具有平行處理能力,特別適合人工智慧和機器學習所需的複雜資料密集運算。這導致了影像和視訊處理等領域的重大進步,使自動駕駛和臉部辨識等技術變得更加高效和可靠。NVIDIA 開發的平行運算平台 CUDA 進一步提高了 GPU 的效率,使開發人員能夠透過將人工智慧問題分解為更小的、可管理的、可同時處理的任務來解決這些問題。這不僅加快了人工智慧研究的步伐,而且使其更具成本效益,因為 GPU 可以在很短的時間內執行與多個 CPU 相同的任務。隨著人工智慧的不斷發展,GPU 的角色可能會變得更加不可或缺,推動各產業的創新和新的可能性。大腦透過神經元網路實現這一目標,這些神經元網路可以獨立但有凝聚力地工作,使我們能夠執行複雜的任務,例如駕駛、導航、觀察交通信號、聽音樂並同時規劃我們的路線。此外,研究表明,與非人類動物相比,人類大腦具有更多平行通路,這表明我們的神經處理具有更高的複雜性。這個複雜的系統證明了我們認知功能的卓越適應性和效率。我們可以一邊和朋友聊天一邊走在街上,一邊聽音樂一邊做飯,或一邊聽講座一邊做筆記。人工智慧是模擬人類腦神經網路的科技,因此必須能同時並行地來處理許多資料。研究人員發現了人腦通訊網路具有一個在獼猴或小鼠中未觀察獨特特徵:透過多個並行路徑傳輸訊息,因此具有令人難以置信的多任務處理能力。

註解

(註一)當讀者看到此篇文章時,其股票已一股換十股,現在每一股約在 $100 左右。

(註二)組裝或升級過個人電腦的讀者或許還記得「英偉達精視 256」(GeForce 256)插卡吧?

(註三)筆者於 1984 年離開清華大學到 IBM 時,就是參加了被認為全世界使用電腦時間最多的量子化學家、IBM「院士(fellow)」Enrico Clementi 的團隊:因為當時英偉達還未有可以在 GPU 上進行平行處理的軟體層,我們只能自己寫軟體將 8 台中型電腦(非 IBM 品牌!)與一大型電腦連接來做平行運算,進行分子動力學模擬等的科學研究。如果晚生 30 年或許就不會那麼辛苦了?

-----廣告,請繼續往下閱讀-----

(註四)補助個人電腦用的 GPU 品牌到 2000 年時只剩下兩大主導廠商:英偉達及 ATI(Array Technology Inc.)。後者是出生於香港之四位中國人於 1985 年在加拿大安大略省成立,2006 年被超微半導體公司收購,品牌於 2010 年被淘汰。超微半導體公司於 2014 年 10 月提升台南出生之蘇姿豐(Lisa Tzwu-Fang Su)博士為執行長後,股票從每股 $4 左右,上升到今天每股超過 $160,其市值已經是英特爾的兩倍,完全擺脫了在後者陰影下求生存的小眾玩家角色,正在挑戰英偉達的 GPU 市場。順便一題:超微半導體公司現任總裁(兼 AI 策略負責人)為出生於台北的彭明博(Victor Peng);與黃仁勳及蘇姿豐一樣,也是小時候就隨父母親移居到美國。

(註五)

延伸閱讀

  • 熱力學與能源利用」,《科學月刊》,1982 年 3 月號;收集於《我愛科學》(華騰文化有限公司,2017 年 12 月出版),轉載於「嘉義市政府全球資訊網」。
  • 網路安全技術與比特幣」,《科學月刊》,2020 年 11 月號;轉載於「善科教育基金會」的《科技大補帖》專欄。
文章難易度

討論功能關閉中。

賴昭正_96
43 篇文章 ・ 56 位粉絲
成功大學化學工程系學士,芝加哥大學化學物理博士。在芝大時與一群留學生合創「科學月刊」。一直想回國貢獻所學,因此畢業後不久即回清大化學系任教。自認平易近人,但教學嚴謹,因此穫有「賴大刀」之惡名!於1982年時當選爲 清大化學系新一代的年青首任系主任兼所長;但壯志難酬,兩年後即辭職到美留浪。晚期曾回台蓋工廠及創業,均應「水土不服」而鎩羽而歸。正式退休後,除了開始又爲科學月刊寫文章外,全職帶小孫女(半歲起);現已成七歲之小孫女的BFF(2015)。首先接觸到泛科學是因爲科學月刊將我的一篇文章「愛因斯坦的最大的錯誤一宇宙論常數」推薦到泛科學重登。

2

3
7

文字

分享

2
3
7
逼近上帝視角——用「統計學」探討因果關係
研之有物│中央研究院_96
・2022/06/15 ・4930字 ・閱讀時間約 10 分鐘

-----廣告,請繼續往下閱讀-----

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位。

  • 採訪撰文/郭雅欣、簡克志
  • 美術設計/蔡宛潔

因果關係怎麼研究?

在日常生活的經驗裡,我們往往習慣以主觀的角度來認定因果關係的存在,但在數理統計的協助下,因果關係可以擁有科學定義,並且可以驗證。中央研究院「研之有物」專訪院內統計科學研究所黃彥棕研究員,他的主要研究便是以數理統計的方式來探討因果關係(例如生物體的複雜機轉)。有了統計方法,人類也能接近上帝視角,找出因果關係的存在。

中研院統計所研究員黃彥棕,擅長以數理統計的方式來思考因果關係。圖/研之有物

以數理統計驗證因果關係

我們絕大多數人相信「凡事必有因果」這句話,例如今天腹瀉,是因為昨天晚餐吃壞肚子;考試沒考好,是因為書念得不夠。但是仔細想想,造成今天拉肚子的原因,除了昨天的晚餐之外,還有沒有別的可能?影響考試成績的因素,除了書念得夠不夠之外,考試環境、考題難易度也都會影響。

所以,我們究竟該如何確定兩件事有因果關係?有沒有什麼科學方法,可以讓我們帶著十足的把握,說出「X 就是造成 Y 結果的原因」這樣的話語?

-----廣告,請繼續往下閱讀-----

中研院統計所研究員黃彥棕,擅長以數理統計的方式來思考因果關係,除此之外他更進一步在數學上探討「X 透過何種機制造成 Y」,也就是所謂的「因果中介效應」。有興趣的讀者,可以參考「研之有物」之前專訪黃彥棕老師的文章〈喝酒臉紅易罹癌?小時候家裡窮會胖?統計學家黃彥棕來解答〉。

回到因果關係,黃彥棕說到:「因果關係是屬於上帝視角。」也就是說,兩件事之間究竟有無因果關係,理論上只有全知者才知道,而我們能做的,是以數理統計的方式,「從人類視角盡可能地逼近上帝視角,來判斷因果關係是否存在。」

何謂因果關係?

為什麼說「因果存在與否只有上帝才知道」?因果關係建立在「反事實」,如果有一個事實是「打疫苗,就不容易感染 COVID-19」,則我們必須驗證是否「不打疫苗,就容易感染 COVID-19」,這就是反事實。有了事實與反事實的比對,我們才能說「打疫苗」與「不易感染 COVID-19」有因果關係。

不過,除非有時光機或平行宇宙,否則我們不可能讓全世界的人打疫苗,並觀察感染情況;然後又讓全世界的人都不打疫苗,並再次觀察染病狀況。只有全知者才能同時觀察這兩個平行宇宙,得知因果關係。黃彥棕說,身處現實世界的我們,只能盡可能地逼近這個結果。

-----廣告,請繼續往下閱讀-----

用數學語言來描述因果關係,最被廣泛使用的架構是由美國統計學家 Donald Rubin 提出的反事實結果(counterfactual outcome)或潛在結果(potential outcome)。值得一提的是,過去 Rubin 也曾與 2021 年諾貝爾經濟學獎得主 Joshua Angrist 和 Guido Imbens 共同發表重要論文〈使用工具變量確認因果效應〉。

以下我們就以疫苗和傳染病為例,以反事實架構來說明「X 導致 Y」的群體因果效應。先假設 X 為民眾施打疫苗與否( 0:不打疫苗,1:打疫苗),而 Y 為得傳染病與否(0:不染病,1:染病),並使用期望值 E 來描述群體平均效應,詳細如下圖。

為了要取得因果關係,我們必須有兩個獨立的平行世界,分別是 X=1 和 X=0,再去比較這兩個世界中 X 如何導致 Y 的發生。圖/研之有物
(資料來源|黃彥棕)

如果我們觀察到 E[Y(X=1)]=0.1,也就是有打疫苗的人染病機率是 10 %。那麼在反事實因果推論的基礎上,我們必須檢驗 E[Y(X=0)] 等於多少,也就是不打疫苗的染病機率。只要 E[Y(X=1)] ≠ E[Y(X=0)],就代表 X 和 Y 之間具有因果關係。

然而,實務上打完疫苗的人不可能再回復到沒打疫苗的狀態,因此我們沒有辦法再次對同一群母體樣本做實驗來驗證因果關係,僅能退而求其次,「盡量貼近」因果關係。那麼,要怎麼做呢?

-----廣告,請繼續往下閱讀-----

有反事實的對照,才有因果關係。

逼近神的因果視角

如果我們把全世界的人分成兩半,其中一半打疫苗、另一半不打疫苗,然後用打疫苗的那一半代表一個宇宙(事實),不打疫苗的代表另一個宇宙(反事實),不就創造出兩個平行宇宙了嗎?

這是一種很直觀的逼近方法,但若要讓一半的人能夠代表一整個宇宙,則有一個重要的前提:這兩個宇宙裡的人是隨機分配的,也就是這兩群人在各個層面都很相似,例如年齡、性別、健康狀況甚至政治傾向等,以專業術語來說就是必須具有可互換性(exchangeability)。藥廠在做疫苗人體實驗時,就必須以非常嚴謹的方式讓受試者盡可能達到隨機分配,才能得到「疫苗是否有效」的科學結果。

不過,在大多數狀況下,我們很難做到隨機分配。舉例來說,臺灣開放施打 COVID-19 疫苗後,截至 2021 年 10 月 29 日為止,有將近 1700 萬人施打第一劑疫苗,但我們不能把這 1700 萬人視為有打疫苗的宇宙,而另一群沒打疫苗的 600 萬人視為沒打疫苗的宇宙,因為打不打疫苗是人民自由選擇的結果,有很多因素會影響個人選擇,例如比較有健康意識,或是比較年輕、不擔心副作用的人,可能就比較傾向打疫苗。

即使統計結果顯示出打疫苗的人,感染 COVID-19 的比例真的比較低,我們也很難分辨是因為打疫苗,還是他們本來就比較年輕?或本來就比較健康?「這是所謂的『觀察型研究』,容易出現因果推論謬誤的原因。」黃彥棕說。

-----廣告,請繼續往下閱讀-----

然而,我們可以用數理統計的方式逼近真實的因果效應,例如控制年齡、健康狀況——兩方都取 50~60 歲的年齡層,並且都是沒有心血管疾病的人等。黃彥棕說:「我們依據自己的背景知識,知道有哪些因素會影響隨機性,然後使用統計的方式,把它們抓出來做控制。」

理論上統計學家可以把所有可能造成偏誤的因子都舉出來,透過一層層地篩選、限縮,最後得出許多個小小的族群,讓隨機性成立。

之後,透過每一組小小的隨機族群(例如年齡 50~60 歲、沒有心血管疾病、男性、具健康意識……等,統稱為 C),讓 Y 的發生和特定條件 C 之下的 X 群體無關,我們就可以得到逼近兩個平行宇宙的資料(有打疫苗、沒打疫苗),最後再把各族群的結果加權平均回來。就可以貼近上帝視角的因果效應。

以數學語言來說,就是讓條件期望值(E[Y|X=x , C=c)])的計算透過加權平均等同於反事實結果之期望值(E[Y(X=x)])的效果。我們沒有時光機,無法透過事實/反事實結果之期望值檢驗全體打疫苗和不打疫苗的因果關係(E[Y(X=1)] ≠ E[Y(X=0)] 嗎?);但是我們可以透過各種條件的篩選和限縮,去計算每個具備可互換性小群體的條件期望值,最後加權平均回來,檢視打疫苗與得病與否的因果關係(∑c E[Y|X=1 , C=c]*P(C=c) ≠ ∑c E[Y|X=0 , C=c]*P(C=c)嗎?),這才是實務上的作法。

問題來了,要怎麼知道我們是否窮舉了所有可能造成偏誤的因子?我們的確不知道,只有上帝知道,這是個假設,而且是個很難驗證的假設。

實務上,我們不可能同時觀察 X=1 和 X=0 的世界,只能分別獲得 X 和 Y 的相關性。要如何從相關性去檢視因果關係呢?透過統計學上的篩選和限制,我們如果可以讓 X=1 vs. X=0 的隨機性成立,就可以進一步驗證 X 和 Y 的因果關係。為方便說明,圖片的數學式為簡單條件期望值計算,不考慮加權平均。圖/研之有物(資料來源|黃彥棕)

「在控制了年齡、性別、健康狀況等條件的情況下,我們希望可以讓隨機性成立。」

黃彥棕的研究讓因果關係在嚴謹的數學架構下,得以辨證、溝通,而不是只仰賴直觀的思考。因果的存在變得更加科學化,而這也使因果的探討可以進入更深的層次。

-----廣告,請繼續往下閱讀-----

被競爭結果和時間擾亂的因果關係

更進階的因果探討層次,是將時間因素考慮進來。黃彥棕以「B 型肝炎」造成「肝癌」,然後導致「死亡」為例,若想探討這三者間的因果關係時,會發生一個問題,那就是有 B 型肝炎的人,有可能容易因猛爆性肝炎而直接死亡,而這樣的個案在統計上,因為他並沒有得到肝癌,而對「肝癌」這個中介因子造成了「保護」的效果。

「這就是肝癌和死亡這兩個競爭結果造成的影響,而這個競爭關係又會隨著時間推移而改變。肝癌、死亡有時間進程關係,一旦 B 型肝炎患者因猛爆性肝炎死亡了,他就不可能再得肝癌。」更清楚地說,B 型肝炎患者可能還「來不及」得肝癌,就因猛爆性肝炎直接跳到死亡。在界定 B 型肝炎與肝癌之間的因果關係時,這樣的結果會造成偏誤。

黃彥棕將時間因素考慮進來的方法,是把整個時程切割成非常多小段,在每個小段創造一個反事實架構,也就是分析每一位在某小段時間活著的 B 型肝炎患者,把他們分成已得到肝癌及還沒得到肝癌,並考慮這兩組患者在下一個瞬間死亡的可能性,再將這些結果積分起來,得到在隨機過程架構之下的平行宇宙們。

「我等於是在每一個瞬間都製造多個平行宇宙(無 B 肝/無肝癌、無 B 肝/有肝癌、有 B 肝/無肝癌、有 B 肝/有肝癌)出來,這樣做可以避免前面說的蓋牌效應。但你可以想像我所得到的平行宇宙數量……嗯,就跟《奇異博士》看到的差不多。」

「我認為我在這領域的部分貢獻,或許是提出了這樣一個會隨著時間推移的反事實架構。」黃彥棕說。他的論文發表出來後不久,也引起了期刊的興趣,邀請了相關領域的許多專家,探討他所提出的因果模型。

-----廣告,請繼續往下閱讀-----

研究因果的動機

談起對因果關係研究的動機,黃彥棕說,以前在醫學系實習時,會看到開同樣的藥給病人,有些病人會好,有些人不會。這種「不確定性」開始讓他覺得好奇。他說:「我可以接受事情就是會有隨機性,但還是很想搞清楚這樣的不確定性是怎麼來的。」

最近,黃彥棕也發現許多人會把「預測」和「因果」搞混,尤其是現在人工智慧(AI)發展出的預測模型表現愈來愈好,有些做 AI 預測模型的人,會誤以為能夠用預測表現良好的模型,來得到因果關係。

舉例來說,一個模型可以透過一個人是否抽菸,來預測他得肺癌的機率,也可以透過一個人身上是否攜帶著打火機,來預測肺癌機率。「但我們知道抽菸與肺癌有因果關係,而帶打火機與否應該是不會造成任何增加肺癌風險的生物效應的。」黃彥棕說。

「抽菸」與「帶打火機」都能成為 AI 模型預測肺癌時採用的因子,但顯然並非代表它們與肺癌都有因果關係。黃彥棕接著說:「雖然預測未必需要因果關係,但是,決策就需要因果關係的支持。若要降低肺癌風險,政府較合理的做法是下令禁菸,而不是禁打火機。但要看到因果是比較困難的,它先天上的限制使它難以驗證,這個挑戰也是因果推論的迷人之處。」

-----廣告,請繼續往下閱讀-----

最後,黃彥棕切身感受到因果關係的重要性,尤其是藥廠研發藥物或是臨床醫學等領域的應用。而他在反事實架構上考慮時間因素的突破,讓因果推論的知識又更往前推進。反事實因果推論的數學模型,讓人類能夠有深刻的思考,去檢視深藏在直觀表面之下的因果性與相關性。

延伸閱讀

所有討論 2
研之有物│中央研究院_96
296 篇文章 ・ 3568 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

5

603
9

文字

分享

5
603
9
相關、因果,傻傻分不清楚
活躍星系核_96
・2022/03/10 ・3495字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

本文轉載自 Liou YanTing 臉書【相關、因果,傻傻分不清楚】

文/劉彥廷

你一定曾經在網路上看過類似像這樣的研究:

  • 「婚禮花費越高,離婚率越高」
  • 「家中藏書越豐富,小朋友越聰明」
  • 「性生活越活躍的人,越少生病,身體越健康」
  • 「抽雪茄的人更長壽」

不曉得你看到這些訊息時,第一反應會是什麼?

是嘴角上揚,莞爾而笑;還是點點頭,對結論表示贊同;又或者是眉頭緊蹙,心想:「嗯……好像哪裡怪怪的。」面對這些試圖告訴你「兩個事件關聯性」的資訊,有思辨習慣的人,會如何思考、解讀它們呢?

-----廣告,請繼續往下閱讀-----

今天,就來和你分享一下,要正確理解這些訊息,得先有個概念,叫做——「相關,並不等於因果」。

圖/劉彥廷

冰淇淋銷售量與溺死人數

重要的事多說一遍:「相關,不等於因果。」

舉個經典的案例,「研究發現,冰淇淋銷售量越高,溺水死亡人數越多」,也就是「冰淇淋銷量」和「溺死人數」這兩個事件,或者說變數——呈現了「高度正相關」。

相信看到這樣的訊息,任何心智能力正常的人,都不會下結論說:冰淇淋「造成」了溺水。因為所有人都知道,「冰淇淋銷量」與「溺死人數」雖然有相關,但它們並沒有因果關係。

那問題就來了,「為什麼沒有因果關係的兩個事件,彼此會有相關呢?」

聰明的你,一定已經想到了。在這個例子的背後,藏著另一個變因,叫做——「季節」。在夏天,冰淇淋賣得好,銷售量高;同時,在夏天,去玩水的人比較多,意外溺水身亡的人也比較多。這兩個「獨立的事件」,同時並列在一起,就讓「冰淇淋銷量」和「溺死人數」有了相關性。

-----廣告,請繼續往下閱讀-----

一旦我們將「季節」這個變因排除,用科學語言來說,叫做「控制住」——兩個事件的相關性就消失了。

表面上相關的史丹佛棉花糖實驗

在日常生活中,有些事件的相關性很單純,就像冰淇淋與溺水的例子,不會讓人誤判,讓人真的以為它們有因果關係。但有很多例子,就沒這麼容易判斷了,甚至,連受過專業訓練的科學家也會誤判。例如你可能聽過的經典實驗——「史丹佛棉花糖」實驗。

史丹佛大學的研究人員找了一群孩子,讓他們單獨待在房間中,並在面前放置一顆棉花糖,接著告訴他們:「如果你能堅持 15 分鐘,不把這顆棉花糖吃掉,你就能得到兩顆棉花糖。」

之後,研究人員對這些孩子們進行了多年的追蹤,並得出一個結論:「那些沒有在一開始吃掉棉花糖的小朋友,也就是擁有『延遲滿足能力』的小朋友,有更好的人生表現。」

這個實驗的結論以及它帶來的啟發,對兒童教育有著極大的影響。許多家長、老師都不約而同的,開始強調要訓練、培養孩子的「延遲滿足能力」。你在博客來搜尋「棉花糖」這幾個關鍵字,也能查到一堆親子教養的書籍。

但你知道嗎?這個實驗結論已經被證明是有問題的了!

後來有研究團隊又重複做了實驗,但這次,他們特別將「家庭背景」這項因素控制起來,結果發現,「延遲滿足能力」與「未來成就」的相關性就不見了。

-----廣告,請繼續往下閱讀-----

什麼意思呢?翻譯成白話文就是:決定小朋友未來成就的主要因素,並不是什麼延遲滿足的能力,而是你家裡有沒有錢啊!

那些家裡有錢的小朋友,對他們來說,平常有太多機會可以吃到好吃的糖果、零食,當然實驗時,更容易忍住不吃棉花糖;而家裡越有錢,將來越有機會取得成功,這不是很理所當然的事情嗎?

你看,連這麼有名的實驗,都會犯「相關不等於因果」的錯誤。那我們應該如何正確地看待,這些「表面上有相關」的兩個事件呢?

有相關的五種可能性

當我們說 A 和 B 有相關時,從邏輯的角度來看,有五種可能,接下來我們會依序來舉例說明一下。

圖/劉彥廷

相關不是因果,是 A 造成 B,還是 B 造成 A?

舉個例子,研究發現「性生活越活躍的人,越少生病,身體越健康」。

這則訊息最直觀的解讀也許是,「性生活會讓人更健康」,這叫 A 造成了 B。但有沒有可能反過來是 B 造成了 A 呢?也就是──不是性生活讓人健康,而是越健康的人,才可能有活躍、高頻率的性生活啊!

這樣的思考、解讀,是不是也是一種可能,而且更合理呢?

-----廣告,請繼續往下閱讀-----

並非是完整的原因,A 造成 B,但 C 也會造成 B

這種情況簡單來說,就是「一果多因」。我們在現實世界遇到的許多問題,都屬於這一類型。

舉個例子,如果想要證明「死刑具有嚇阻力」,你覺得,需要什麼樣的數據或資料呢?以下是兩種常見的答案:

  • 第一種,上網找已經廢除死刑的國家,比較這個國家在廢除死刑前後,犯罪率的變化。如果在廢除死刑後,犯罪率有顯著的上升,那麼就證明了——「死刑的確具有嚇阻力」。
  • 第二種,上網找找看,有沒有「曾經」廢除死刑,但之後又恢復死刑的國家,比較這個國家在恢復死刑前後,犯罪率的變化。如果在恢復死刑後,犯罪率有顯著的下降,那麼就證明了——「死刑的確具有嚇阻力」。

這兩種答案,雖然切入的角度不一樣,但背後的思考邏輯都相同,都是試圖以死刑和犯罪率的「因果關係」,來證明死刑具有嚇阻力。

但如果我們再多想一層,這兩組數據,真的可以證明「死刑和犯罪率具有因果關係」嗎?要知道,犯罪是一個複雜的社會問題,影響犯罪率高低的原因有很多,而有沒有死刑,只是眾多原因之一,並不是唯一。

-----廣告,請繼續往下閱讀-----

所以,以第一組數據來說,一個國家在廢除死刑後,犯罪率上升。除了廢死這個原因,導致了犯罪率上升外,還有沒有可能有其他原因?比如說,在廢除死刑時,剛好遇到了金融海嘯,或是某個重大災難,導致社會動盪不安、失業率上升,犯罪率也連帶跟著上升。

同樣道理,對於第二組數據來說,一個國家在恢復死刑後,犯罪率下降。除了死刑導致犯罪率下降這種解釋外,有沒有一種可能是,犯罪率下降的原因,是因為這個國家基礎教育做得好、人民素質足夠高,即便沒有死刑,犯罪率也會下降。

在沒有「排除」、「控制」影響犯罪率的「其他變因」之前,如何保證犯罪率的上升或下降,真的是因為死刑存廢所造成的呢?

C 造成 A,同時,C 也會造成 B

前面提到的「冰淇淋與溺水」、「棉花糖實驗」都是這樣的例子,也就是存在一個「隱藏變因」C,同時影響了 A 和 B,以下我再提幾個例子:

  • 像是「家中藏書越豐富,小朋友越聰明」,你覺得是大量的藏書,讓孩子變得更聰明了,還是有其他隱藏變因,會讓家中藏書更豐富,同時,也會讓小朋友更聰明呢?
  • 又或者是「哈佛畢業生薪水比它校畢業生高」,你覺得是念哈佛,會讓你薪水更高,還是有其他隱藏變因,會讓你容易申請上哈佛,同時,也容易拿到較高的薪水呢?

聰明的你,一定能想到答案。

偽相關,又稱「純屬巧合」

這種純屬巧合的相關,也被稱為「偽相關」。美國有個網站,就蒐集了許多偽相關的數據案例,其中有不少讓人哭笑不得的例子。

-----廣告,請繼續往下閱讀-----

例如:「影星尼可拉斯凱吉拍過的電影」和「游泳池溺死人數」,呈現高度正相關;「美國小姐的年齡」和「因取暖設備喪命的人數」,也呈現高度正相關。

看到「有關聯性」,先別急著下定論

行文至此,也寫了快 3000 字。

感謝你願意看完這篇文章,在注意力稀缺的時代,要在社群媒體上看完一篇 3000 字的文章,實屬不易;希望你的大腦還承受得住,沒有當機。

最後總結整理一下,以後若看到一則訊息,試圖告訴你「兩個事件的關聯性」時,在接受它之前,不妨試著先在腦中思考這幾個問題:

  1. 是前者造成了後者,還是,後者造成了前者其實也說得通呢?——就像「性生活和身體健康」的例子。
  2. 有沒有其他可能的原因,也會造成同樣結果?——就像死刑嚇阻力的例子。
  3. 有沒有隱藏變因會同時影響兩者?——就像「冰淇淋和溺水」和經典的「棉花糖實驗」的例子。
  4. 有沒有可能是純屬巧合?
圖/GIPHY
所有討論 5
活躍星系核_96
752 篇文章 ・ 126 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia