0

0
0

文字

分享

0
0
0

p 值的陷阱(下):「摘櫻桃」問題

林澤民_96
・2017/01/07 ・8456字 ・閱讀時間約 17 分鐘 ・SR值 545 ・八年級

編按:本文係林澤民老師在2016年中進行的相關系列演講之一的逐字稿修訂版,本場次為2016/6/6在政大社科院的演講,題目為《看電影學統計:p 值的陷阱》。原文刊於《社會科學論叢》2016年10月第十卷第二期。

此篇文章為下篇,建議先收看上篇文章:〈 p 值的陷阱(上):p值是什麼?又不是什麼?

Source:SONY DSC
Source:Vicente Villamón

「摘櫻桃」問題

再來我們講到「摘櫻桃」問題,如同剛剛所提到,研究假設的先驗機率是如此重要,我們要如何去判定?要怎麼知道它是多少?我們必須要做文獻的分析、要建構我們的理論,在這種情況之下,會出現摘櫻桃的問題。這裡就是要呈現給大家看,譬如我們作 20 個統計檢定,從作第一個開始,本來有一個 model,但是 p 值不顯著,我們就改一下model,加一個變數、減一個變數,或是把一個變數平方,或是把一個變數取 log,或者把樣本除去一些,增加一些,這樣慢慢去試驗,最後終於得到一個顯著的結果了!但這裡告訴你,做了 20 個這樣的檢定,我們以為每一個檢定的 Type I error 控制在 0.05,可是 20 個裡面最少有一個顯著的或然率是多少?是 0.64。(圖八)

f_19859859_1
圖八

為了讓大家能夠進一步了解這個問題,再給大家看一部電影,這部電影是《班傑明的奇幻旅程》。

讓大家看這部電影,我們可以注意到,這部電影所講的,跟上一部《玉蘭花》很類似,也在討論是這樣發生車禍到底是 by accident 還是 by design。它的議論應該是:這種車禍的發生,其實有一連串的因果鏈,只要這因果鏈其中有一個環節稍微不一樣、或是沒有發生的話,可能車禍就不會發生。因此它的敘述者暗示說其實是 by design,而不是 by accident。然而現在要跟大家說明,這個結論是錯的。電影要說明這是 by design 而不是 by accident 的話,是完全錯誤的。為什麼?大家只要想想看,我們政大門前有條交通繁忙的馬路,你一邊跳舞一邊過街,看會不會被車撞上,不是極有可能會嗎?為什麼?因為車禍是 by accident,它是說被某一輛特定車子撞到的機率很低,譬如是 0.05,可是如果有 20 輛車子經過的話,被其中最少一輛撞到的機率就會很大,剛才已經算給各位看,所以電影是錯誤的。

類似這種問題,其實我們日常生活中所在多有。再以大樂透為例:你買了一注大樂透,你中頭獎的機率是 1 / 13,980,000。如果你自己中獎,你也許會說這是命運,不是機率,因為中獎的機率近乎 0。但全台灣賣了5,000,000 注的大樂透,最少有一注中頭獎的機率其實是 0.30。你不能舉出有人中獎的事實就否定大樂透開獎的隨機機制。

-----廣告,請繼續往下閱讀-----

這就是 cherry-picking,只抓住發生的事件,就來說因為有這麼多因果鏈,如果稍微有一點不一樣,這種事情就不會發生,這是錯誤的,因為它有很多其他的可能性同時存在。現在在統計學裡面,很多人很不在意這個問題,甚至主張這種問題不存在,而其實它可能比 p 值的誤用還要嚴重。這種問題叫做多重假說檢定(multiple hypothesis test)、多重比較(multiple comparison),我有同事對這種問題的反應十分強烈,主張所有的研究都必須要事先登記,什麼叫做事先登記?並非申請研究經費、寫一個研究計畫這麼簡單,所謂事先登記(pre-registration)的觀念,就是在做任何研究之前,研究者必須要把研究計畫 post 在網站上,而且 post 上之後就不能改,現在其實已經有很多這種網站存在,將來研究者發表文章,如果跟預先登記的研究設計不一樣,其他人就可以對你發表的結果提出質疑。

只從單一結果去回推的因果論其實是不正確的,因為事情在發生時其實是多重可能性並存。圖/Marcus Pink @ Flickr
只從單一結果去回推的因果論其實是不正確的,因為它有很多其他的可能性同時存在。圖/Marcus Pink @ Flickr

小結:在多重假說檢定的情況下,即使 H為真,「至少有一 p 值檢定顯著」的機率常會甚大於單一 p 值檢定的顯著水平 α。以「摘櫻桃」的方式只報告顯著的檢定結果常會導致錯誤的統計推論。

結語

圖九是 ASA 建議取代 p 值的其它途徑,在此沒有時間細講,大致上是要用其它方法,比如貝式統計學。(圖九)這邊提到的很多方法都跟貝式統計學有關係。我們現場有貝式統計學的專家,他們懂得怎麼用貝式統計學來分析資料。但對於還沒有學到貝式統計學的朋友,這邊 ASA 特別提到的 confidence intervals(信心區間)是傳統統計學的方法。ASA 似乎認為使用信心區間比使用 p 值檢定要來得好,但是信心區間其實是連續性的 p 值檢定,如果只是看看虛無假設的理論值有沒有在信心區間之內,則檢定的結果跟 p 值檢定是一樣的。但如果把信心區間畫出來,至少有一個好處,它會清楚呈現出效應的大小,讓你不但能看出檢定結果的統計顯著性(statistical significance),也能看出估計值的實質顯著性或重要性(substantive significance)。我們使用信心區間,總比只用一顆星兩顆星來標明統計顯著性要好。

f_19859875_1
圖九

如果一定要用幾顆星的話,大家就不要再用 α = 0.10 了;p <0.10  就不要再加星星了。我知道 American Journal of Political Science(AJPS) 已經不接受 α = 0.10 這個顯著水準的統計檢定了;不管是單尾檢定或是雙尾檢定,用 α = 0.10 已經不被接受了。0.05 還可以,最好能用 0.01,審稿人對你較難有所批評。

但是最重要的,如果我們不得不用傳統的統計方法,我們必須要增強我們的理論論述和脈絡描述,因為增強理論論述和脈絡描述,即會增強研究假設的先驗機率。當研究假設的先驗機率比較高時,其後驗機率–偽陽性的反機率–就會比較低。這好比你健康檢查某種疾病的篩檢出現陽性時,好的醫生會從你的性別、年齡、生活習慣、飲食作息、家庭病史、乃至於居住環境等脈絡來判斷你是否有充分的病因,以之來詮釋篩檢的陽性結果。這其實就是貝氏更新的道理。

-----廣告,請繼續往下閱讀-----

我讀這些文獻後的想法是:統計學很快就會有很重大的改變,傳統的作法、用 p 值來作統計檢定的作法,大概再過幾年,就不容易再存在。所以大家必須要應變,這也是我在回國來,希望能夠提醒大家注意的一個問題。

Q&A 時間

source:Marcus Ramberg
source:Marcus Ramberg

發問1

林老師您好,謝謝您今天很精彩的演講,也很謝謝上禮拜六參加計劃時,您給我們的文章有很大的啟發與提升。今天聽了這個演講以後,我覺得我們對於 p-value 的使用可能要有心理準備,未來就算不是被全部淘汰,大部分也要被丟到另外一邊去。我在想的一個問題是,因為老師提到使用 confidence intervals,我們在寫作時,有一個習慣是會比較傾向去解釋那些在 p-value 上顯著的變數,如果說未來使用 confidence intervals 的話,我們是不是應該在文章裡面,每一個變數都要去解釋它對 dependent variable 的重要性?或是說應該怎樣去作結果的討論以及處理?謝謝!

林澤民:我想你的自變數應該也有所謂的解釋變項與控制變項吧。我覺得如果控制變項不是麼重要的話,也許就不用太費勁去討論,就著重在解釋變項。解釋變項就是不管作傳統的統計顯著或不顯著,都要加以討論。不只是討論統計的顯著性,更要討論實質的顯著性,而實質的顯著性或重要性是比較能從 confidence intervals 看出來的。其實 p 值的問題是兩面刃,說不定對我們也有好處,就是將來得到不顯著的結果,說不定都可以 publish,都可以呈現在你的論文裡面,而不用怕被人家說:明明就不顯著為什麼還要報告。

發問2

林老師您好,我是經濟系的學生,謝謝林老師今天很精彩的說明,這邊至少有兩個點想跟林老師請教,以及跟大家分享。第一個就是如您剛才所說,我們在作實證研究的時候,不管是我們自己或是長期的訓練,或是目前的期刊的要求,關切的都比較是顯著的結果,所以過去在經濟學界也有對這方面的討論,談到為什麼要去關切那些不顯著的結果;同樣的道理,那些不顯著的結果要被期刊接受的機會也是非常非常低。你唯一可以被接受的理由大概就是,我們看到這個人所作的東西,以後就不要再作了,大概就是樣子。我第一點要說的是,我們目前有這樣的困境。您剛提到一個很好的論點,未來也許大家會有一個共識,就是不顯著的結果反而是更重要的。

-----廣告,請繼續往下閱讀-----

我的第二點是一個問題:您剛剛提到,確實在醫學或自然科學部分,要去找到一些理論上的基礎,可能相對來講比較容易。在社會科學裡面,如果要去找到一些所謂的因果關係,或是比較扎實的理論,可能比較困難,因為人的行為無法像自然科學的實驗室般重複去作,且控制到所有條件都一樣。針對此部分,您剛認為要加強理論的論述,好讓 prior 來的比較 solid 一點,就社會科學部分不知道有沒有更好的一些方法,或至少不會差自然科學太多?這部分確實對我們社會科學的人來講比較困擾一點。

林澤民:我先從第二個問題來回答。我不敢說整個社會科學啦,但在政治學界大概很多人會跟你說:你可能要用賽局理論。

美國政治學在過去十幾年來有一個概念叫作 EITM-Empirical Implications for Theoretical Models。名稱有點奇怪,但它的用意是把統計分析跟理論結合,講 EITM 的人特別強調的就是形式理論,特別是賽局理論。就是作一些對人性的基本假設,然後用賽局理論的數學分法去 deduce,用邏輯去導出一些結果出來,然後再把這些結果用統計方法加以檢定。這在政治學過去十幾年來,已經變成一個很普及的概念。

這有它的好處,就是在形式理論部分,只要基本假設大家能接受,它的邏輯都是沒有爭議的。嚴格來講,形式理論只要大家接受你的假設和邏輯推演,就要接受你的結果,用統計來檢定結果是多餘的。但是我們知道,比如假設行為者是理性的,然而真實的人不一定理性,所以經驗檢定還是重要的。EITM 用形式理論來增強理論的先驗機率,我想這是很不錯的。

-----廣告,請繼續往下閱讀-----
在社會科學理論生成的背後,對於人性的基本假設只要大眾大致能同意,對於推論的結果也就能接受。圖/Adrian Hu @ Flickr
在社會科學理論生成的背後,對於人性的基本假設只要大眾大致能同意,對於推論的結果也就能接受。圖/Adrian Hu @ Flickr

你前面第一點提到關於不顯著的結果,當然我也不是說將來學術期刊會大量接受不顯著的檢定結果,我想也不至於,可能只是要求你把這些不顯著的結果都 post 在網頁上;然而對於教授升等,這些作品算不算也不一定,但是我想某種程度上這是合理的預期,一旦不需要使用幾顆星的話,不顯著的結果也可以放進文章裡去,期刊會從整篇文章的研究設計、立論、方法、和結果,來衡量決定到底能不能發表,而不會斤斤計較是一顆星、兩顆星,還是沒星星,所以我對這點倒是有點樂觀。其實,現在已經有很多期刊採取「預約接受刊登」(pre-acceptance)的編輯政策,也就是審查你的研究計劃就可以決定要刊登你計劃執行後的完稿,條件是不論經驗資料支持不支持你的研究假設,完稿都不得改變當初的研究設計,包括 model specification,這就是說不顯著的結果也要刊登了。

其實可以跟大家預告一下,八月四日在中央研究院政治學研究所,為了慶祝所慶,有一個學術討論會。討論會的主題是「甚麼是研究發現」?引言人有朱雲漢、吳玉山兩位院士跟我三個人。我的任務就是報告 p-value 的問題。傳統來講,統計上顯著的結果才叫做 findings,不顯著的結果是 non-findings,但是這觀念可能要有所改變了。這等到八月四日再專門來講。

發問3

謝謝林老師很深入淺出的演講,之前在上統計課的時候,雖然有講到 p-value 的問題,但每次在上大學部課程時,我常常都沒辦法把這一塊講得這麼清楚。在我還是研究生的時候,我們就有很多這方面的討論,而這幾年這問題特別地被突顯,我認為很大的原因,大概是電腦技術越來越好、作 testing 的困擾已經越來越少;另一方面,如果你相信 Bayesian 的話,你應該相信所有的 parameters 都該是 probability term,而不是 deterministic term,說它是顯著還是不顯著。我也有一個問題想請教林老師,您如今在基礎統計的教學裡面,對 p-value 是用傳統 frequentist 的講法,還是像現在等於把它推翻?因為我常有這樣的困擾,就是在初級的課用 frequentist 的方式講,然後到了進階的課,再拿 Bayesian 的 approach 去推翻自己原本以前講的。我不知道林老師您目前在授課時,是用什麼樣的方式?特別是針對 frequentist 的邏輯。

林澤民:我想你對 p 值問題的了解應該比我更早。我是這幾年來才慢慢地逐步了解這個問題。在教學上要採取立即的改變,其實很不容易,我完全了解。我們有一個同事後來就在抱怨,ASA 為什麼要發表這個東西?他說現在所有的journal articles,還有教材、教科書,全部-至少百分之九十幾-都是傳統的統計學,你怎麼來教大學生新的東西?所以這是很困難的。今天我在這裡演講,如果有一點點是我自己觀察來的結果,而不是完全從文獻上得到的,我想是關於 prior-HA 的 prior-怎樣去影響到偽陽性的反機率,這我覺得很重要。

-----廣告,請繼續往下閱讀-----

我目前教學仍是會用傳統方法,畢竟要把一本教科書重新編輯、作講義,是很大的工程。此外,我自己跟你不一樣,我是 frequentist,你來教 Bayesian 比我容易多了。我以前會放電影,跟學生講 p 值是什麼。我現在也放電影,跟學生講 p 值有什麼問題,讓他們了解。然後我會對他們說,在還沒學習貝式統計學之前,要比較強調 prior。也就是你用傳統的統計方法作研究,如果研究假設沒有很高的 prior 的話,也許你就不要作了。

發問(接續):我只是有時候會有點精神錯亂,之前跟學生講過的東西,在比較進階的課程時就要把它推翻掉。

林澤民:在座如果有老師教統計學,請你不要說:林老師今天講的就代表我上課講的都錯了。學生也不要說我上課學的都錯了。不是這麼一回事,這不是我的用意。因為 p 值本身它並沒有錯,錯的是大家對它的誤解誤用。至於傳統的教學方法要怎麼改,我們要慢慢試,但是我們要了解這個問題的存在。我自己到最近教學還是用傳統方法,如果今天請我的學生來聽我演講,他們會說:老師你以前教的都錯了。但事實上,不只是我們教書的,有多少科學、商業或政策上的決定,都是奠基於 p 值檢定的結果之上,我們能說他們都錯了嗎?我想不能說他們都是錯的,可是我們要改變。

發問4

林老師好,我是理學院資科系的老師。非常謝謝林老師,很高興今天上老師的課。關於剛剛幾位老師的討論,我覺得在我們資科系,很多人的直覺,一個方法要嘛是對、要嘛是錯。你們搞機率的卻是:它可能百分之八十對、百分之二十錯。我覺得應該講清楚的是,就 prior 來講,只要 prior 夠強,過去 p-value 的方法大概是對的。這應該有range,大部分問題,只要 prior 在 range 裡面,或許 p-value 的方法是相當可靠的。我不會推翻過去的教學方法,說一切都是錯的,其實沒有麼嚴重。在大部分的問題裡面,過去的方法也許是可用的,只是今天我們面對一些方法,單獨的 p-value 並不是麼可靠,也就是一個漸進式的改變,這樣我們不會打自己嘴巴。

-----廣告,請繼續往下閱讀-----
大部分問題,只要仍在某一可接受範圍內,就不必因為新方法產生而被全盤推翻,只要慢慢漸進調整即可。圖/Marcus Mailov @ Flickr
大部分問題,只要仍在某一可接受範圍內,就不必因為新方法產生而被全盤推翻,只要慢慢漸進調整即可。圖/Marcus Mailov @ Flickr

林澤民:對,我完全同意。這就是為什麼我做了這三個圖表,可以看到雖然影響偽陽性反機率的因素包括 prior 和 power,但其實主要是 prior。即使 power 低到 0.50,只要 prior 也有 0.50,偽陽性的反機率也不過是 0.09。如果你願意用 0.10 的顯著水準,0.09 還是顯著的!要給一個可接受的 range,我覺得 prior 大於 0.50 的話,其實都還好。最怕的就是 prior 很低很低,像 ESP 這種研究假設。這也是為什麼在 p-value 問題的討論上,那一篇知名心理學家對 ESP 作的研究會被拿出來討論,因為它的 prior 幾乎是零,但是這只能夠很粗略的估計。

發問5

老師,這邊有一個小問題是:假設現在有十篇從舊到新的文章,它們的先驗機率都不太一樣,我如果要寫一篇文章,我要用最新一篇的先驗嗎?還是由自己發展出來、自己認定?

林澤民:當然你說先驗機率不太一樣,它為什麼會不一樣?是因為理論根本不一樣嗎?還是說因為時間的關係,大家有越來越多的研究發表,先驗機率就會逐步改變?如果已經有一個文獻,通常是建議你要作後設研究,叫 meta-analysis,就是把過去發表的文章統一起來作一個研究。但坦白說我個人也沒有作過這種 meta-analysis,可能可以在這方面的文獻去看一下。Eric,你可以就 meta-analysis 這點再作補充?

俞振華:嘗試把各種不同的 model 的係數,最後統整,變成有點類似老師您剛提的,試很多的 model 的 specification,然後組成一個結果。

-----廣告,請繼續往下閱讀-----

林澤民:對,我讀的這些 p-value 的文獻裡面,其實有些文章就是作 meta-analysis。

發問6

我有兩個關於寫作的問題,因為從老師的演講得到非常多心得。其中一個問題是,如果能強調理論先驗機率的強度,老師剛有提到用 EITM 看能不能夠結合形式理論的一些邏輯去增強強度,此外,我在思考是否有可能,至少就我自己在寫作時,會提出一些案例,然後再稍微說明,我有些案例,當然這些案例可證的是少數,因為全世界有一百多個國家,我們只有一兩個案例而已,說服力有限,但多多少少還是有些用處。我在想這樣作是否 Okay?這是為了提升理論先驗機率的說服力,而提出一些案例來作討論。

只可證明少數的案例是否能用來提升理論先驗機率的說服力?圖/lee vickers @ Flickr
只可證明少數的案例是否能用來提升理論先驗機率的說服力?圖/lee vickers @ Flickr

第二,剛剛老師提到有關 non-findings,這些發現,相信以後應該越來越多人至少在文中會提到,可能一段、或幾句話。就老師的想法來說,要提是要怎麼提?是跟目前為止像跟大家講的一樣,要提的話就只能說,結果顯示並不是 statistically significant,就這樣子很平鋪直敘的描述?還是要稍微把重點放在跟理論的連結,即便結果沒有很顯著,但也不代表我的理論是錯的。我不曉得能不能這樣講,也許不行,因為太武斷。只是不曉得未來大家在強調沒有統計顯著水準的結果時,是要怎麼表達?是要平鋪直敘地講,還是要有些焦點?有些要強調、有些不一樣?

林澤民:我想先講第二個問題,而其實這在 Bayesian 根本就不是問題,Bayesian 就把 posterior distributions 畫出來就好,你根本也不需要去提是否顯著,因為「顯著」的概念本來就是 frequentist 的概念,它不是 Bayesian 的概念。所以要是你看過一些 Bayesian 的文章,你會看到它畫很多圖,每個圖都很小,一小格就一個圖,然後圖就畫上 posterior distributions,甚至連 credible intervals 也不一定要畫出。

俞振華:但是為了要跟 frequentist 對話,現在還是會有 95 % 的 credible intervals。

林澤民:對,不過需要 95 % 嗎?因為我最近寫一篇文章,合作者說 68 % 就可以。所以我想可能就不需要去談什麼顯著不顯著,你就把圖畫出來就好。你若不是 Bayesian,就用 confidence intervals,然後你去畫圖,每一個變數的係數你就把 confidence intervals 畫出來。至於 0 有沒有在 confidence intervals 裡面,我想不必然是唯一的重要標準,當然就實際情況來說,仍要看你的 reviewers 有沒有接受你的結果。我必須要強調,在網路上你還是可以找到一些文章,它們要替 p-value 辯護。要是碰到這樣的評論者,可能就必須要小心。

你第一個問題是說,提出實質案例而不一定是理論,我覺得也可以,我個人會接受,因為所謂文獻,除了理論之外,還有這種實質的知識、地方性的知識。我個人認為這些知識可以幫助我們加強 prior,特別是當這些案例能夠增加我們了解自己研究假設的脈絡時。ASA 的聲明特別提到脈絡(context)的重要性,我剛剛也有提到醫生詮釋陽性反應時,通常要參考病人所處的脈絡。但是我必須要說,我今天特別強調 prior 的重要性,我不知道在座是否有其他學者可以肯定我這一點,我覺得我個人強調 prior,可能與文獻上的這些在講 p-value 的危險性的 articles 相較時,我強調的可能比較多一點。我不能保證所有的統計學者都會同意我的看法,所以要是碰到我來評審你的文章就好了。但是我希望我講的還是有點說服力吧?要是你研究假設的 prior 夠強,可能 p-value 的問題就不是這麼大。

發問7

聽了很多同仁的問題,還有老師的回答以後,我這邊另外的問題是,因為在一開始,老師提到一個期刊-Basic and Applied Social Psychology,也講了 ASA 在今年提出的聲明,我想問,ASA 它的官方期刊─ JASA,是否已經有接受,或是應該說拒絕這種只報 p-value 的文章?還是說他們政策現在是做一個調整,同時都接受兩種?

林澤民:很抱歉,JASA 的文章我不是經常在看,我不能回答你的問題。但是我剛剛已經講了,BASP 在他們政策制定之後,ASA 有一個回應,不是那個 official statement,是在發表 official statement 之前的一個回應。那個回應只說 ASA 正在籌擬一個 official statement。而最後這 official statement 其實跟 BASP 的決定是不一樣的。因為 ASA 的 official statement,第一點在說明 p-value 是什麼,它並沒有說 p-value 錯誤,只是把 p-value 的正確意義講出來。換句話說,只要是使用正確的意義,p-value 並沒有問題,只是不要去誤用它。不要只是著重在統計顯著性,因為 model 對錯的機率跟 p-value 不一樣,要使用 p-value 作檢定,要把它跟 α 來做比較,所以問題不只是 p-value,而是 α。界定了 α 之後,才知道結果是不是顯著。當得到一個顯著的結果以後,必須再來衡量偽陽性反機率的問題,也就是 model 後設機率的問題,這就不是 p-value 可以告訴你的。

本文《看電影學統計:p 值的陷阱》轉載自 Tse-min Lin 的部落格

-----廣告,請繼續往下閱讀-----
文章難易度
林澤民_96
37 篇文章 ・ 245 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

0

1
0

文字

分享

0
1
0
從認證到實踐:以智慧綠建築三大標章邁向淨零
鳥苷三磷酸 (PanSci Promo)_96
・2024/11/15 ・4487字 ・閱讀時間約 9 分鐘

本文由 建研所 委託,泛科學企劃執行。 


當你走進一棟建築,是否能感受到它對環境的友善?或許不是每個人都意識到,但現今建築不只提供我們居住和工作的空間,更是肩負著重要的永續節能責任。

綠建築標準的誕生,正是為了應對全球氣候變遷與資源匱乏問題,確保建築設計能夠減少資源浪費、降低污染,同時提升我們的生活品質。然而,要成為綠建築並非易事,每一棟建築都需要通過層層關卡,才能獲得標章認證。

為推動環保永續的建築環境,政府自 1999 年起便陸續著手推動「綠建築標章」、「智慧建築標章」以及「綠建材標章」的相關政策。這些標章的設立,旨在透過標準化的建築評估系統,鼓勵建築設計融入生態友善、能源高效及健康安全的原則。並且政府在政策推動時,為鼓勵業界在規劃設計階段即導入綠建築手法,自 2003 年特別辦理優良綠建築作品評選活動。截至 2024 年為止,已有 130 件優良綠建築、31 件優良智慧建築得獎作品,涵蓋學校、醫療機構、公共住宅等各類型建築,不僅提升建築物的整體性能,也彰顯了政府對綠色、智慧建築的重視。

-----廣告,請繼續往下閱讀-----

說這麼多,你可能還不明白建築要變「綠」、變「聰明」的過程,要經歷哪些標準與挑戰?

綠建築標章智慧建築標章綠建材標章
來源:內政部建築研究所

第一招:依循 EEWH 標準,打造綠建築典範

環境友善和高效率運用資源,是綠建築(green building)的核心理念,但這樣的概念不僅限於外觀或用材這麼簡單,而是涵蓋建築物的整個生命週期,也就是包括規劃、設計、施工、營運和維護階段在內,都要貼合綠建築的價值。

關於綠建築的標準,讓我們先回到 1990 年,當時英國建築研究機構(BRE)首次發布有關「建築研究發展環境評估工具(Building Research Establishment Environmental Assessment Method,BREEAM®)」,是世界上第一個建築永續評估方法。美國則在綠建築委員會成立後,於 1998 年推出「能源與環境設計領導認證」(Leadership in Energy and Environmental Design, LEED)這套評估系統,加速推動了全球綠建築行動。

臺灣在綠建築的制訂上不落人後。由於臺灣地處亞熱帶,氣溫高,濕度也高,得要有一套我們自己的評分規則——臺灣綠建築評估系統「EEWH」應運而生,四個英文字母分別為 Ecology(生態)、Energy saving(節能)、Waste reduction(減廢)以及 Health(健康),分成「合格、銅、銀、黃金和鑽石」共五個等級,設有九大評估指標。

-----廣告,請繼續往下閱讀-----

我們就以「台江國家公園」為例,看它如何躍過一道道指標,成為「鑽石級」綠建築的國家公園!

位於臺南市四草大橋旁的「台江國家公園」是臺灣第8座國家公園,也是臺灣唯一的濕地型的國家公園。同時,還是南部行政機關第一座鑽石級的綠建築,其外觀採白色系列,從高空俯瞰,就像在一座小島上座落了許多白色建築群的聚落;從地面看則有臺南鹽山的意象。

因其地形與地理位置的特殊,生物多樣性的保護則成了台江國家公園的首要考量。園區利用既有的魚塭結構,設計自然護岸,保留基地既有的雜木林和灌木草原,並種植原生與誘鳥誘蟲等多樣性植物,採用複層雜生混種綠化。以石籠作為擋土護坡與卵石回填增加了多孔隙,不僅強化了環境的保護力,也提供多樣的生物棲息環境,使這裡成為動植物共生的美好棲地。

台江國家公園是南部行政機關第一座鑽石級的綠建築。圖/內政部建築研究所

第二招:想成綠建築,必用綠建材

要成為一幢優秀好棒棒的綠建築,使用在原料取得、產品製造、應用過程和使用後的再生利用循環中,對地球環境負荷最小、對人類身體健康無害的「綠建材」非常重要。

-----廣告,請繼續往下閱讀-----

這種建材最早是在 1988 年國際材料科學研究會上被提出,一路到今日,國際間對此一概念的共識主要包括再使用(reuse)、再循環(recycle)、廢棄物減量(reduce)和低污染(low emission materials)等特性,從而減少化學合成材料產生的生態負荷和能源消耗。同時,使用自然材料與低 VOC(Volatile Organic Compounds,揮發性有機化合物)建材,亦可避免對人體產生危害。

在綠建築標章後,內政部建築研究所也於 2004 年 7 月正式推行綠建材標章制度,以建材生命週期為主軸,提出「健康、生態、高性能、再生」四大方向。舉例來說,為確保室內環境品質,建材必須符合低逸散、低污染、低臭氣等條件;為了防溫室效應的影響,須使用本土材料以節省資源和能源;使用高性能與再生建材,不僅要經久耐用、具高度隔熱和防音等特性,也強調材料本身的再利用性。


在台江國家公園內,綠建材的應用是其獲得 EEWH 認證的重要部分。其不僅在設計結構上體現了生態理念,更在材料選擇上延續了對環境的關懷。園區步道以當地的蚵殼磚鋪設,並利用蚵殼作為建築格柵的填充材料,為鳥類和小生物營造棲息空間,讓「蚵殼磚」不再只是建材,而是與自然共生的橋樑。園區的內部裝修選用礦纖維天花板、矽酸鈣板、企口鋁板等符合綠建材標準的系統天花。牆面則粉刷乳膠漆,整體綠建材使用率為 52.8%。

被建築實體圍塑出的中庭廣場,牆面設計有蚵殼格柵。圖/內政部建築研究所

在日常節能方面,台江國家公園也做了相當細緻的設計。例如,引入樓板下的水面蒸散低溫外氣,屋頂下設置通風空氣層,高處設置排風窗讓熱空氣迅速排出,廊道還配備自動控制的微噴霧系統來降溫。屋頂採用蚵殼與漂流木創造生態棲地,創造空氣層及通風窗引入水面低溫外企,如此一來就能改善事內外氣溫及熱空氣的通風對流,不僅提升了隔熱效果,減少空調需求,讓建築如同「與海共舞」,在減廢與健康方面皆表現優異,展示出綠建築在地化的無限可能。

-----廣告,請繼續往下閱讀-----
島式建築群分割後所形成的巷道與水道。圖/內政部建築研究所

在綠建材的部分,另外補充獲選為 2023 年優良綠建築的臺南市立九份子國民中小學新建工程,其採用生產過程中二氧化碳排放量較低的建材,比方提高高爐水泥(具高強度、耐久、緻密等特性,重點是發熱量低)的量,並使用能提高混凝土晚期抗壓性、降低混凝土成本與建物碳足跡的「爐石粉」,還用再生透水磚做人行道鋪面。

2023 年優良綠建築的臺南市立九份子國民中小學。圖/內政部建築研究所
2023 年優良綠建築的臺南市立九份子國民中小學。圖/內政部建築研究所

同樣入選 2023 年綠建築的還有雲林豐泰文教基金會的綠園區,首先,他們捨棄金屬建材,讓高爐水泥使用率達 100%。別具心意的是,他們也將施工開挖的土方做回填,將有高地差的荒地恢復成平坦綠地,本來還有點「工業風」的房舍告別荒蕪,無痛轉綠。

雲林豐泰文教基金會的綠園區。圖/內政部建築研究所

等等,這樣看來建築夠不夠綠的命運,似乎在建材選擇跟設計環節就決定了,是這樣嗎?當然不是,建築是活的,需要持續管理–有智慧的管理。

第三招:智慧管理與科技應用

我們對生態的友善性與資源運用的效率,除了從建築設計與建材的使用等角度介入,也須適度融入「智慧建築」(intelligent buildings)的概念,即運用資通訊科技來提升建築物效能、舒適度與安全性,使空間更人性化。像是透過建築物佈建感測器,用於蒐集環境資料和使用行為,並作為空調、照明等設備、設施運轉操作之重要參考。

-----廣告,請繼續往下閱讀-----

為了推動建築與資通訊產業的整合,內政部建築研究所於 2004 年建立了「智慧建築標章」制度,為消費者提供判斷建築物是否善用資通訊感知技術的標準。評估指標經多次修訂,目前是以「基礎設施、維運管理、安全防災、節能管理、健康舒適、智慧創新」等六大項指標作為評估基準。
以節能管理指標為例,為了掌握建築物生命週期中的能耗,需透過系統設備和技術的主動控制來達成低耗與節能的目標,評估重點包含設備效率、節能技術和能源管理三大面向。在健康舒適方面,則在空間整體環境、光環境、溫熱環境、空氣品質、水資源等物理環境,以及健康管理系統和便利服務上進行評估。

樹林藝文綜合大樓在設計與施工過程中,充分展現智慧建築應用綜合佈線、資訊通信、系統整合、設施管理、安全防災、節能管理、健康舒適及智慧創新 8 大指標先進技術,來達成兼顧環保和永續發展的理念,也是利用建築資訊模型(BIM)技術打造的指標性建築,受到國際矚目。

樹林藝文綜合大樓。圖/內政部建築研究所「111年優良智慧建築專輯」(新北市政府提供)

在興建階段,為了保留基地內 4 棵原有老樹,團隊透過測量儀器對老樹外觀進行精細掃描,並將大小等比例匯入 BIM 模型中,讓建築師能清晰掌握樹木與建築物之間的距離,確保施工過程不影響樹木健康。此外,在大樓啟用後,BIM 技術被運用於「電子維護管理系統」,透過 3D 建築資訊模型,提供大樓內設備位置及履歷資料的即時讀取。系統可進行設備的監測和維護,包括保養計畫、異常修繕及耗材管理,讓整棟大樓的全生命週期狀況都能得到妥善管理。

智慧建築導入 BIM 技術的應用,從建造設計擴展至施工和日常管理,使建築生命周期的管理更加智慧化。以 FM 系統 ( Facility Management,簡稱 FM ) 為例,該系統可在雲端進行遠端控制,根據會議室的使用時段靈活調節空調風門,會議期間開啟通往會議室的風門以加強換氣,而非使用時段則可根據二氧化碳濃度調整外氣空調箱的運轉頻率,保持低頻運作,實現節能效果。透過智慧管理提升了節能效益、建築物的維護效率和公共安全管理。

-----廣告,請繼續往下閱讀-----

總結

綠建築、綠建材與智慧建築這三大標章共同構建了邁向淨零碳排、居住健康和環境永續的基礎。綠建築標章強調設計與施工的生態友善與節能表現,從源頭減少碳足跡;綠建材標章則確保建材從生產到廢棄的全生命週期中對環境影響最小,並保障居民的健康;智慧建築標章運用科技應用,實現能源的高效管理和室內環境的精準調控,增強了居住的舒適性與安全性。這些標章的綜合應用,讓建築不僅是滿足基本居住需求,更成為實現淨零、促進健康和支持永續的具體實踐。

建築物於魚塭之上,採高腳屋的構造形式,尊重自然地貌。圖/內政部建築研究所

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

0

4
2

文字

分享

0
4
2
看電影學統計:「多重宇宙」與統計學「隨機變異」的概念
林澤民_96
・2023/03/15 ・2854字 ・閱讀時間約 5 分鐘

「多重宇宙」是我教統計時常用到的名詞,我用它來解釋隨機變異(stochastic variation)的概念:

例如民調抽得一個樣本,此樣本的受訪者固然是一群特定人士,但理論上我們可以抽出許多許多樣本,這些樣本之間雖然會有隨機變異,但樣本彼此的宏觀性質仍會相近。這些不同的隨機樣本,可以以「多重宇宙」一詞來形容。即使事實上只有一個樣本(一個宇宙),我們可以想像在多重宇宙的每個宇宙裡,都有一個微觀上隨機變異的樣本存在。

一個樣本(一個宇宙),在多重宇宙裡,每個宇宙都有一個微觀上隨機變異的樣本存在。 圖/IMDb

什麼是隨機樣本?

其實,數理統計學中「隨機樣本」(random sample)的概念指的是「一組獨立且同一分布的隨機變數」(a set of independently and identically distributed random variables)

在這個定義之下,樣本的每一個單位(資料點)都不是固定不變的數值,而是一個依循某機率分布的隨機變數。「隨機樣本」的要求是樣本所有的 N 個單位不但要互相獨立,而且要依循同一的機率分布。

我們可以想像我們平常所謂「一個樣本」的 N 個觀察值,每一個觀察值背後都有一個產生這個數值的隨機變數,也可以說所謂「一個樣本」其實只是這「一組獨立且同一分布的隨機變數」的一個「實現」(realization)。那麼,不同的樣本就是這「一組獨立且同一分布的隨機變數」的不同「實現」。這樣了解之下的不同樣本、不同「實現」,我喜歡把它們稱為「多重宇宙」。

-----廣告,請繼續往下閱讀-----

多重宇宙中的隨機變異,是我們在分析一個樣本的資料時必須作統計推論的原因。

比如我們分析本屆所有 113 位立委的議事行為,既然立委一共只有 113 人,我們分析的對象不就是立委的母體嗎?那是不是就不必做統計推論?

不是!原因是我們仍然可以想像有多重宇宙存在,每個宇宙都有 113 位立委,而同一位立委在不同的宇宙裡其議事行為會有隨機變異。正是因為這隨機變異的緣故,我們即使分析的是所謂「母體」,我們仍然要做統計推論。

圖/IMDb

「多重宇宙」的概念可以說就是「假如我們可以重來」的反事實思想實驗。被分析的單位不是在時間中重來一次,而是在多重宇宙的空間中展現「假如我們可以重來」的隨機變異的可能性。

名為 Monday 的這集 X 檔案電視劇中,主角的夢境不斷重複,每次夢境的結構大致類似,但細節卻有所不同,這正是「多重宇宙—隨機變異」概念的戲劇化。

-----廣告,請繼續往下閱讀-----

【媽的多重宇宙】(Everything Everywhere All at Once)也是。

「看,這是你的宇宙,一個漂浮在存在宇宙泡沫中的泡泡。周圍的每個氣泡都有細微的變化。但你離你的宇宙越遠,差異就越大。」——【媽的多重宇宙】對白

這是說:變異程度越小的是離你越近的宇宙,程度越大的是離你越遠的宇宙。這裡所謂變異的程度,在統計學裡可以用誤差機率分布的標準差來衡量。

什麼是隨機變異?

關於「隨機變異」這個概念,我最喜歡的例子是研究所入學申請的評審。

例如有 120 人申請入學,我詳細閱讀每人投遞的申請資料(包括性別、年齡等個人特質還有 SOP、大學成績單、GRE 分數、推薦信等),然後打一個 Y=0~100 的分數。全部評閱完畢,我便得到一份 N=120 的資料。這個資料包括了所有的申請者,那麼它是樣本呢?還是母體?

-----廣告,請繼續往下閱讀-----

如果我要分析我自己評分的決定因素,我會把分數 Y 回歸到性別、年齡等個人特質以及資料中可以量化的變數,例如大學成績平均分數(GPA)和 GRE 分數。跑這個迴歸時,需不需要做統計推論,看迴歸係數是不是有統計的顯著性?

我的看法是這份 N=120 的資料是樣本而不是母體,做迴歸分析當然要做統計推論。

那麼我資料的母體是什麼?

迴歸分析資料的母體其實是所謂「母體迴歸函數」(population regression function),也就是通常所說的「資料產生過程」(data generating process, DGP)。

這個 DGP 就是我在評閱每份資料時腦海中的思考機制,它考量了許多量化和質化的變數,賦予不同的權重,然後加總起來產生 Y。

分析資料的母體,也就是常說的「資料產生過程」。 圖/envato.elements

量化變數的權重就是母體迴歸函數的係數,質化變數則是母體迴歸函數的係數的誤差項。如果有很多質化變數攏總納入誤差項,我們通常可以根據中央極限定理,假設誤差項是呈現常態分布的隨機變數。這個誤差項就是「隨機變異」的來源。

評審入學申請,我通常只把所有資料評閱一次。這一次評審結果,會有幾家歡樂幾家愁,這便構成了一個「宇宙」。如果我第二天又把所有 120 份資料重新評分一遍,得到第二個樣本。因為我腦中的「資料產生過程」包括隨機變數,這個新樣本保證跟第一個樣本會有差異。用白話說:我的評分機制不精確,我自己甚至不知道我給每個量化變數多少權重,而且第二次評閱所用的權重也會跟第一次不盡相同,更不用說質化變數如何影響我的評分了。

-----廣告,請繼續往下閱讀-----

這第二個樣本,申請者的排比不會跟第一個樣本一樣,雖然也是幾家歡樂幾家愁,歡樂與愁悶的人也可能不一樣。這是第二個宇宙。依此類推,我們可以想像同樣的120位申請者,因為我「資料產生過程」的隨機變異,活在多重宇宙裡。

這些宇宙有的差異不大,根據【媽的多重宇宙】的說法,它們的泡泡互相之間的距離就較近,差異較大的宇宙,距離就較遠。如果申請者可以像電影所述那樣做宇宙跳躍,他們會看到自己在不同宇宙裡的命運。

我擔任德州大學政府系的研究部主任時,常耽心有申請者拿我們入學評審委員的評分資料去做迴歸分析。如果分析結果顯示種族、性別等變數有統計顯著性,說不定會被拿去控告我違反所謂「平權行動」(affirmative action)的相關法律。如果沒有顯著性,我就不耽心了。

多重宇宙之間會不會有「蝴蝶效應」?也就是宇宙跳躍時,隨機變異產生的微小差異,會不會造成新舊宇宙生命路徑的決然不同?

-----廣告,請繼續往下閱讀-----

在【媽的多重宇宙】中,伊芙琳只要當初做了一個不同的決定,以後的生命便可能跟現世(home universe)有很不一樣的命運。這在統計學也不是不可能。時間序列分析中,有些非線性模式只要初始值稍微改變,其後在時間中的路徑便會與原來的路徑發散開來。

你做時間序列分析時,會不會想想:時間序列資料究竟是樣本還是母體?如果你的研究興趣就只限於資料期間,那要不要做統計推論?當然要的,因為隨機變異的緣故。

如果你今年申請外國研究所不順利,也許在另一個宇宙裡,你不但獲名校錄取,得到鉅額獎學金,而且你的人生旅途將自此一路順遂,事業婚姻兩得意呢。

-----廣告,請繼續往下閱讀-----
林澤民_96
37 篇文章 ・ 245 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

0

2
2

文字

分享

0
2
2
假藥也能治療?安慰劑效應的原因:「不」隨機化實驗!——《統計,讓數字說話》
天下文化_96
・2023/03/03 ・1932字 ・閱讀時間約 4 分鐘

  • 作者:墨爾 David S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

實驗法中「隨機化」的必要性

隨機化比較實驗是統計學裡面最重要的概念之一。它的設計是要讓我們能夠得到釐清因果關係的結論。我們先來弄清楚隨機化比較實驗的邏輯:

  • 用隨機化的方法將受試者分組,所分出的各組在實施處理之前,應該各方面都類似。
  • 之所以用「比較」的設計,是要確保除了實驗上的處理外,其他所有因素都會同樣作用在所有的組身上。
  • 因此,反應變數的差異必定是處理的效應所致。

我們用隨機方法選組,以避免人為指派時可能發生的系統性偏差。例如在鐮形血球貧血症的研究中,醫師有可能下意識就把最嚴重的病人指派到羥基脲組,指望這個正在試驗的藥能對他們有幫助。那樣就會使實驗有偏差,不利於羥基脲。

從受試者中取簡單隨機樣本來當作第一組,會使得每個人被選入第一組或第二組的機會相等。我們可以預期兩組在各方面都接近,例如年齡、病情嚴重程度、抽不抽菸等。舉例來說,隨機性通常會使兩組中的吸菸人數差不多,即使我們並不知道哪些受試者吸菸。

實驗組與對照組除主要測量變數外,其餘條件必需盡可能相似。圖/envatoelements

新藥研究上不隨機分組帶來的後果:安慰劑效應

如果實驗不採取隨機方式,潛藏變數會有什麼影響呢?安慰劑效應就是潛藏變數,只有受試者接受治療後才會出現。如果實驗組別是在當年不同時間進行治療,所以有些組別是在流感季節治療,有些則不是,那麼潛藏變數就是有些組別暴露在流感的程度較多。

-----廣告,請繼續往下閱讀-----

在比較實驗設計中,我們會試著確保這些潛藏變數對全部的組別都有相似的作用。例如為了確保全部的組別都有安慰劑效應,他們會接受相同的治療,全部的組別會在相同的時間接受相同的治療,所以暴露在流感的程度也相同。

要是告訴你,醫學研究者對於隨機化比較實驗接受得很慢,應該不會讓你驚訝,因為許多醫師認為一項新療法對病人是否有用,他們「只要看看」就知道。但事實才不是這樣。有很多醫療方法只經過單軌實驗後就普遍使用,但是後來有人起疑,進行了隨機化比較實驗後,卻發覺其效用充其量不過是安慰劑罷了,這種例子已經不勝枚舉。

曾有人在醫學文獻裡搜尋,經過適當的比較實驗研究過的療法,以及只經過「歷史對照組」實驗的療法。用歷史對照組做的研究不是把新療法的結果和控制組比,而是和過去類似的病人在治療後的效果做比較。結果,納入研究的 56 種療法當中,用歷史對照組來比較時,有 44 種療法顯示出有效。然而在經過使用合適的隨機化比較實驗後,只有 10 種通過安慰劑測試。即使有跟過去的病人比,醫師的判斷仍過於樂觀。

過去醫學史上常出現新藥實際沒療效,只能充當安慰劑效果的情況。圖/envatoelements

目前來說,法律已有規定,新藥必須用隨機化比較實驗來證明其安全性及有效性。但是對於其他醫療處置,比如手術,就沒有這項規定。上網搜尋「comparisons with historical controls」(以歷史對照組來比較)這個關鍵字,可以找到最近針對曾使用歷史對照組試驗的其他醫療處置,所做的研究。

-----廣告,請繼續往下閱讀-----

對於隨機化實驗有一件重要的事必須注意。和隨機樣本一樣,隨機化實驗照樣要受機遇法則的「管轄」。就像抽一個選民的簡單隨機樣本時,有可能運氣不好,抽到的幾乎都是相同政治傾向一樣,隨機指派受試者時,也可能運氣不好,把抽菸的人幾乎全放在同一組。

我們知道,如果抽選很大的隨機樣本,樣本的組成和母體近似的機會就很大。同樣的道理,如果我們用很多受試者,加上利用隨機指派方式分組,也就有可能與實際情況非常吻合。受試者較多,表示實驗處理組的機遇變異會比較小,因此實驗結果的機遇變異也比較小。「用足夠多的受試者」和「同時比較數個處理」以及「隨機化」,同為「統計實驗設計」的基本原則。

實驗設計的原則
統計實驗設計的基本原則如下:
1. 要控制潛在變數對反應的影響,最簡單的方法是同時比較至少兩個處理。
2. 隨機化:用非人為的隨機方法指派受試者到不同的實驗處理組。
3. 每一組的受試者要夠多,以減低實驗結果中的機遇變異。

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
天下文化_96
142 篇文章 ・ 623 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。