0

1
0

文字

分享

0
1
0

自欺欺人的 「教學品保量化指標」 騙局

洪朝貴
・2013/04/17 ・6253字 ・閱讀時間約 13 分鐘 ・SR值 525 ・七年級

巫醫問: 『怎麼樣, 教授, 準備好要來跟我學一些比 「教學品保量化指標」 更科學的事了嗎?』
巫醫問: 『怎麼樣, 教授, 準備好要來跟我學一些比 「教學品保量化指標」 更科學的事了嗎?』

本文採用線性代數的觀點分析, 指出: 今日許多大學所推動的 「教學品保」 其中的量化指標欠缺實質意義。 例如本系的 「教學品保量化指標」, 最多只有 0.3 位有效數字的意義。 略微改善之後也許可以提高到 0.7 位有效數字, 但受限於「許多數值是主觀判斷」的現實, 這也可能是多數現行 「教學品保量化指標」 的上限。 大學不應在沒有學理背景支持卻有許多爭議聲的情況下, 盲目推動教學品保, 還假裝這是很科學的管理方式。 不然我就想改行當一個巫醫或祈雨師算了。

一、 一組資料實例

一年半前我蒐集了一些 質疑教學品保的文章 並且自己也寫了一篇, 討論 教學品保與創意教學之間的矛盾。 這學期輪到我的課必須繳一份教學品保的報告。 與其把寶貴的生命浪費在一個具有爭議、 沒有學理基礎的盲目政策上面, 還不如認真地寫一篇揭發騙局的文章, 來當做我這學期的教學品保報告 :-) 也稟持著 (已經逐漸流失的) 學術精神, 提供所有相關的數據與檔案, 請大家指正本文的分析。

請下載我去年的科技英文課的教學品保量化指標 ods 檔 以及四個班的問卷結果統計檔: A B C N。 其實讀者可以從比較高的層次去理解它, 並不需要真的跟我一樣探究數學式的細節。 請看設計檔的 「授課大綱」 分頁就好。

首先, 每個系所都有一組自己設定的 「核心能力」。 例如本系的核心能力是:

  1. 管理知能於組織資源之運用能力
  2. 資訊技能於資訊系統之應用能力
  3. 專業倫理與團隊合作協調能力
  4. 資管相關時事議題認知與自主學習能力

再來, 每門課的授課教師必須設定幾個本課程的 「教學目標」。 例如我的科技英文的教學目標是:

  1. 英文閱讀能力
  2. 網路使用能力
  3. 閱讀習慣
  4. 中翻英能力
  5. 聽力

嗯, 讀者的笑聲我聽到。 這根本就是虛應敷衍下的產品。 後來新的規定是: 一位老師所寫的教學目標, 必須通過學群幾位老師的審核, 所以新版有改善; 而我也失去了更搞怪的機會。 (例如 「指出大學盲從微軟現象」 之類的教學目標) 不過, 我的教學目標寫得好不好並不是重點, 重點是: 它代表著異於 「系所核心能力」 的另一組指標

最後, 請切換到 ods 檔的 「問卷」 分頁。 學生在學期末要填一份問卷。 如果老師沒有特別另外設計的話, 問卷題目就只是直接把教學目標抄過來小幅修改讓文句通順而已。

二、 向量空間模型

教學品保量化指標的投影/座標轉換圖
教學品保量化指標的投影/座標轉換圖

假設每週上課的成果是一個向量 — 難以定義的無限多維向量空間當中的一個向量。 (嗯, 向量空間模型確實並不完全合理。 第五節 「本文分析方式的合理性?」 再回答這個問題。 提醒: 本文也算是 「行動歸謬證明法」。) 那麼在 ods 檔 「授課大綱」 分頁底下始於 A25 那格的對照表, 就是 18 個 「每週向量」 w24111, w24112, … w241118 分別在 「課程目標」 Y2411 這個五度子空間的投影 (的簡化版), 同時進行座標轉換 (改用 Y2411 的向量作為基底) 。 (所謂 “投影, 又進行座標轉換”, 請想像 用 normal equation 求最小方差解; 以下類似) 另外, 在 「完全按照教學目標來設計問卷問題」 的簡單狀況下 — 也就是圖中紅字 (1) 的路線 — 49 份學生問卷結果 q24111, q24112, … q241149 則是學生感受到的教學成果在 Y2411 子空間的投影/座標轉換 (的簡化版)。

至於 ods 檔同一分頁底下始於 A18 那格的對照表, 則是 「課程目標」 Y2411 五度子空間投影到系所 「核心能力」 Xim 四度子空間的投影矩陣 (的簡化版), 同時進行座標轉換 (改用 Xim 的向量作為基底)。 注意: 在這個 ods 檔的例子裡, 因為極度簡化, 矩陣 Tim2411 只剩下一個 bit (0.3 位有效數字) 的資訊 (”有關聯” 或 “無關聯”),

同一分頁下, 始於 A12 那格的對照表, 其實就是十八週向量和 (或是平均值, 看你要不要把分母的常數考慮進去) 在 Xim 子空間的投影。 它是怎麼算出來的呢? 最複雜的 ods 檔 「相關聯結-關聯度」 分頁, 就是在把 w2411 = w24111 + … w241118 投影到 Xim 並改用它的的基底來呈現。 首先, 始於 B15 的表格拿 w24111 … w241118 來求和。 接著, 始於 J14 的表格拿 Tim2411 把 w2411 換成 Xim 的座標系。 再來, 始於 J4 的矩陣有正規化 (除以 18) 的效果。 最後, 始於 A2 的矩陣則只是把結果改用二維的表格來呈現 4 個 (1-5 共五種結果) 2.3 bit (0.7 位有效數字) 的座標值。 以上皆是指實際矩陣向量乘法的簡化版。 當然, 這些數字並不是 w2411 本身, 而是它在 Xim 的基底向量的投影的座標值。

顯然, 校方對於老師直覺估計所計算出來的 「以 Xim 的座標呈現 w2411 的投影」 不太有把握, 所以在四個班的問卷下方, 你可以看到學生們對同一向量的重新估計 — 也就是圖中紅字 (2) 的部分 — 被拿來跟老師的估計值做比較。

這些投影的目的, 是企圖要把一個系所開設的許多門課的大異其趣 w 向量, 通通投影到 Xim 同一個子空間當中, 採用一致的座標系, 然後才能做後續的量化處理。 如果可以拿到全系的資料、 拿到系報給學校的資料, 相信還是可以用線性空間的模型繼續進一步分析學校層級的 「教學品保量化指標」。

精簡版的教學品保量化指標的投影/座標轉換圖
精簡版的教學品保量化指標的投影/座標轉換圖

以上複雜的分析是要給教學品保量化指標專家前來本文踢館用的, 裡面其實已經對支持者做了一些讓步。 (把 「十八週授課主題的加總或平均」 跟 「實際授課結果」 當成是不同的向量…諸如此類) 如果您本來就懷疑教學品保量化指標的客觀性與實質意義, 那麼請見 小格讀者 explorer 的精簡分析; 右圖是我依據他的分所所畫的。

三、 國王的新衣: 最多 0.3 位的有效數字

如果你還記得中學理化實驗裡的 「有效數字」 (易懂好文!) 概念, 「教學品保量化指標」 最令人難以下嚥的地方是: 以本系的例子來說, 最終數據的精確度, 不會超過一個 bit (0.3 位有效數字) — 就算我們完全不質疑所有師生一切填寫數據的客觀性、 就算我們假設所有主觀填寫的數字都有無限多位有效數字, 單單是看 Tim2411 就知道: 任何通過它的結果 (每個 「科系」 層次的結果都必須通過它), 最多只能有一個 bit (0.3 位有效數字) 的精確度。

如果數學不是您的領域, 讓我做一個簡化版的比喻: 你要到克林貢星 (Klingon) 旅遊, 當地的導遊預估你需要準備 50000 克林貢幣左右。 但是在全宇宙之間, 克林貢星只跟瓦肯星 (Vulcan) 之間有貿易往來, 而克林貢幣與瓦肯幣之間的匯率, 大約在 30:1 到 60:1 之間。 (就像 Tim2411 一樣不夠精確) 瓦肯星幣跟美金之間的匯率, 有一個大致穩定的盤價。 請問你應該準備多少臺幣? 即使上文沒有詳細描述瓦肯星幣跟美金之間的匯率、 臺幣跟美金之間的匯率, 你也可以確定: 最終答案的不確定性至少將有上下高達兩倍的範圍。 也就是說, 任何有數學常識的人, 都不應該對最終算出來的那個數字存有太多不切實際的幻想。

這次, 國王就算真的有穿新衣, 那套新衣的大小, 恐怕要讓國王不露點都有困難。

四、 「教學品保量化指標」 更多無法回答問題

除了有效數字太少之外, 教學品保量化指標還有很多問題必須回答。 本文列出幾點, 如果有必要, 以後再另文詳細討論:

  • [NC] 是不是應該要有負關聯性, 才能反應一些 「課程目標與系所核心能力背道而馳」 的事實? 例如某些課程 「Office 證照卓越」 的教學目標跟某些校系 「職業道德」的核心能力, 兩者之間的夾角應該大於 90 度。 (彼此的投影量是負的。) 我知道大學不想承認; 但否認無法改變事實, 只會更加突顯量化指標沒有能力呈現這類大學不願面對的事實。
  • [藍色直線先投影到紅色平面再投影到綠色平面 vs 藍色直線直接投影到綠色平面] 兩者結果不同, 方向甚至相反!
    [藍色直線先投影到紅色平面再投影到綠色平面 vs 藍色直線直接投影到綠色平面
    [MP] (請對照 explorer 簡化版的圖及右圖) 子空間 C 當中的一個向量, 「先投影到 Y 再投影到 X」 vs 「直接投影到 X」 這兩個結果可能大不相同, 甚至可能方向相反 — 即使假設有效數字無限多位也一樣。 例如要把一張問卷結果 q241113 投影到 「系所核心能力」 子空間 Xim 再投影到院核心能力子空間, 如果分兩次算, 最終的結果甚至可能與原始向量夾角超過 90 度 (彼此的投影量是負的); 但如果直接投影, 那就保證不會超過 90 度。
  • [RR] 一門課的實際教學成果, 在 「系所核心能力」 子空間 Xim 的投影, 到底應該用紅字 (1) 再用 Tim2411來求, 還是要直接套用紅字 (2)? 注意: 除了上述 [MP] 的考量之外, 在這裡, 兩者甚至是來自不同人的估計。 如前所述, 紅字 (2) 的路線可能比較有利漂亮的數據。 不僅如此, 因為它來自眾多學生的主觀判斷 (四個班問卷結果下方數據) (而不是單一老師的主觀判斷), 所以還有另外一個好處: 學生人數每擴增成四倍, 就可賺到一個 bit 的有效數字。 但是這樣一來, 老師們應該會抗議自己的專業判斷被學生蓋臺。 奇妙的是, 學校並沒有公佈這個問題的答案, 而老師們完全不知道學校的計算方式, 卻也沒有發出抗議的聲音。
  • [IQ] 不過另一個考量, 會讓上一個問題得到完全相反的答案。 本系剛經過大學評鑑自評, 其中有委員希望我們改進問卷設計。 我不是很確定委員的意思; 不過如果委員的意思是 「問卷不要直接抄教學目標」, 那麼就需要多一層投影/座標轉換, 改走圖中紅字 (3) 的路線, 變成總共進行兩次投影/座標轉換, 前後參考了三個 (!) 不同的基底。 這也許會讓學生的直接回答更有意義, 但另一方面卻會讓投影結果偏離原始向量更遠, 也多增加一個降低有效數字的機會。 此外, 用來描述 「每個問題與每個教學目標之間關聯度高低」 的轉換矩陣 S2411, 當然也必須由每位授課老師自行設計, 沒有人可以代勞。 這應該也會引起老師的抗議。
  • [XB] 如果一位授課老師 (透過填寫 W2411 間接) (謙虛地) 表示: 「我這門課對於系所核心能力 Xim3『倫理合作』 沒有太大幫助啦」 但是學生問卷紅字 (2) 的結果, 卻是大有貢獻, 那麼這算是好事 (”意外的收穫”) 還是壞事 (”偏離教學品保所設定的目標”)? 兩者都不太合理; 但事關教師權益與對應策略設定, 校方應該明確回答這個問題。
  • [IG] 教學品保量化指標完全無法呈現那些 「投影過程中, 被忽略掉的垂直分量」。 也就是說, 教學品保量化指標可能會鼓勵教師放棄那些 「與系所核心能力無關, 但很可能對於教育具有重大意義」 的教學面向。

我個人認為: 教學品保企圖以有限維度的量化指標搭配主觀的關聯性認定, 來描述複雜的人與人教學互動、 來描述主觀設定的各級 (校/院/系/學科) 目標, 這是完全不切實際的事、 這完全是在糟蹋數學, 藉數學之名舉辦的口號複誦大會。 (希望不是藉數學之名行控制教師巫毒術之實的邪惡技倆。) 這也是為什麼上面的問題令人難以回答, 左也不是, 右也不是。

五、 本文分析方式的合理性?

向量空間當然不是最完美的模型, 但它是所有可能模型當中, 一個夠通盤又夠簡單的折衷。

一方面, 它已經通用到足以將絕大多數的 「教學品保量化指標」 計算方式都視為是它的簡化版。 事實上, 我很有興趣蒐集更多各校系教學品保量化指標的計算公式與實例, 來證實以上這句話。 如果提供者同意具名或匿名讓我刊出分析結果, 我很樂意重複上一節的方式, 從向量空間投影/座標轉換的角度, 代為分析貴校貴系的量化指標, 並且指出你所能信賴的有效數字上限。

另一方面, 向量空間簡單到足以讓所有理、 工、 管理教師採用共同的語言 — 線性代數 — 來討論 「教學品保量化指標」 的困境。 任何教過線性代數、 微分方程、 工程數學、 管理數學、 多變量分析、 … 的老師, 都可以用豐富精確的數學語言來討論 「教學品保量化指標」 的真實意義, 而不再需要像現在各校的教學品保一樣打迷糊仗、 「教學品保量化指標的意義, 長官說了算」。

如果堅持要採用最通用、 最完整、 涵蓋所有可能性的模型來分析, 也許就必須訴諸 metric tensor in curvilinear coordinates (曲線座標系的度規張量)。 我第一個承認這超出我的數學能力範圍。 但即使是用 metric tensor 來分析, 也一樣要面對投影流失資訊等等的問題, 上面所提的準確度問題恐怕只會更嚴重而不會更容易南忽略。 更重要的是: 「教學品保量化指標」 這整套系統當中含有這麼多主觀自由心證判斷所產生的 「相關程度」 數值, 本身已有太多的不確定性, 值得我們拿那麼複雜的數學工具來分析嗎?

有人會指出: 「0.3 位有效數字, 是你們系上的教學品保量化指標沒設計好; 如果設計得好, 可以有更多位的有效數字。」 這句話也許有一部分正確吧。 如果把 ods 檔 「授課大綱」 分頁的 A18 起的對照表改成 1 (低度相關) 到 5 (高度相關) 的 5 個等級, 再重新修改一些算式, 那麼精準度上限也許可以提高到 0.7 位有效數字。 (當然, 老師們也會抗議表格越改越囉嗦。) 至於那些 「比五個等級更細」 的區分法, 不僅不實際, 也很難有說服力好嗎? 再來, 姑且不論其他爭議, 單就提高有效數字的效果來看, 第四節的 [RR] 已指出: 採取紅字 (2) 路線, 有助於提升有效數字。 以64人的班來算, 大約可以得到 3 bits (0.9 位有效數字) 的準確度。 如果有哪一所校系不顧老師的抗議而這麼做, 或是有其他更好的解決方案, 那麼請仿本文, 完整分享你們的高精準度量化指標設計。 (但請不要採用 佈有專利地雷的 xlsx 格式。) 在那之前, 0.7 位有效數字的上限, 可能是所有現行教學品保校系所不得不面對的困窘現實。

但不論任何研究如何改良, 只要 「教學品保量化指標的敘述」 跟 「學生問卷的問題」 之間的轉換必須依靠 (學生/老師/校方) 主觀判斷給分, 有效數字就永遠不可能太高。 相對地, 未經投影與座標轉換、 一次到位的傳統 「學生對老師表現教學評量」 問卷 (或是只涉及長度/重量/貨幣/…等等明確單位轉換的後續處理) 就不會出現本文所指出來的這些問題。

六、 結論

別忘了, 最終, 「提出一個具有說服力數學模型」 的責任, 落在倡議教學品保的校方 (或是暗中操弄又推卸 accountability 的教育部) 肩上。 如果校方要以管理科學的偉大旗幟來推動教學品保, 那麼就應該先找到足夠的學理支持來背書, 或者最起碼提供一個範例, 說明如何設計一個精確度高於 0.7 位有效數字的量化指標, 並且以同儕評審的學術精神公開範例相關資料, 一方面讓大眾檢驗、 一方面將貴校系的優質設計分享給其他校系學習。 科學實驗與科學方法應該要可以讓讀者模仿重複; 不然就不叫科學了, 對吧?

如果大力推動教學品保的 逢甲大學元智大學銘傳大學長庚大學朝陽科大 等等大學, 對於 「教學品保量化指標 0.7 位有效數字上限」 無法提出一個有效的回應與駁斥, 甚至無法提供一個好的範例, 卻還是堅持繼續推動, 那麼我們大學學術界腐壞失聰失明的狀況, 恐怕遠比彭明輝教授所點出的 「全球大學排名 騙倒一堆校長」 要更可怕。 到時候, 我可能需要考慮改行當巫醫或是祈雨師之類的, 也許還比留在大學當教授更能夠維持理性思考的習慣和科學研究實事求是的精神。 至少這些行業不必透過糟蹋數學來假裝自己很科學。

* * * * *

(留言時, 請用 tex 語法表示上標下標, 例如 w241118 請寫成 「w^{2411}_{18}」。 集合、 矩陣/線性變換用大寫; 個別向量用小寫。)

(本文轉載自 資訊人權貴ㄓ疑)

文章難易度
洪朝貴
47 篇文章 ・ 1 位粉絲

2

2
2

文字

分享

2
2
2
買樂透真的可以賺錢?大數法則揭示了賭博的真相!——《統計,讓數字說話》
天下文化_96
・2023/03/05 ・2394字 ・閱讀時間約 4 分鐘

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是大數法則?

期望值的定義是:它是可能結果的一種平均,但在計算平均時,機率大的結果占的比重較高。我們認為期望值也是另一種意義的平均結果,它代表了如果我們重複賭很多次,或者隨機選出很多家戶,實際上會看到的長期平均。這並不只是直覺而已。數學家只要用機率的基本規則就可以證明,用機率模型算出來的期望值,真的就是「長期平均」。這個有名的事實叫做大數法則。

大數法則
大數法則(law of large numbers)是指,如果結果為數值的隨機現象,獨立重複執行許多次,實際觀察到的結果的平均值,會趨近期望值。

大數法則和機率的概念密切相關。在許多次獨立的重複當中,每個可能結果的發生比例會接近它的機率,而所得到的平均結果就會接近期望值。這些事實表達了機遇事件的長期規律性。正如我們在第 17 章提過的,它們是真正的「平均數定律」。

大數法則解釋了:為什麼對個人來說是消遣甚至是會上癮的賭博,對賭場來說卻是生意。經營賭場根本就不是在賭博。大量的賭客贏錢的平均金額會很接近期望值。賭場經營者事先就算好了期望值,並且知道長期下來收入會是多少,所以並不需要在骰子裡灌鉛或者做牌來保證利潤。

賭場只要花精神提供不貴的娛樂和便宜的交通工具,讓顧客川流不息進場就行了。只要賭注夠多,大數法則就能保證賭場賺錢。保險公司的運作也很像賭場,他們賭買了保險的人不會死亡。當然有些人確實會死亡,但是保險公司知道機率,並且依賴大數法則來預測必須給付的平均金額。然後保險公司就把保費訂得夠高,來保證有利潤。

  • 在樂透彩上做手腳

我們都在電視上看過樂透開獎的實況轉播,看到號碼球上下亂跳,然後由於空氣壓力而隨機彈跳出來。我們可以怎麼樣對開出的號碼做手腳呢? 1980 年的時候,賓州樂透就曾被面帶微笑的主持人以及幾個舞台工作人員動了手腳。

他們把 10 個號碼球中的 8 顆注入油漆,這樣做會把球變重,因此可保證開出中獎號碼的 3 個球必定有那 2 個沒被注入油漆的號碼。然後這些傢伙就下注買該 2 個號碼的所有組合。當 6-6-6 跳出來的時候,他們贏了 120 萬美元。是的,他們後來全被逮到。

歷史上曾有主持人在樂透上做手腳,後來賺了 120 萬美元隨後被逮捕。圖/envatoelements

深入探討期望值

跟機率一樣,期望值和大數法則都值得再花些時間,探討相關的細節問題。

  • 多大的數才算是「大數」?

大數法則是說,當試驗的次數愈來愈多,許多次試驗的實際平均結果會愈來愈接近期望值。可是大數法則並沒有說,究竟需要多少次試驗,才能保證平均結果會接近期望值。這點是要看機結果的變異性決定。

結果的變異愈大,就需要愈多次的試驗,來確保平均結果接近期望值。機遇遊戲一定要變化大,才能保住賭客的興趣。即使在賭場待上好幾個鐘頭,結果也是無法預測的。結果變異性極大的賭博,例如累積彩金數額極大但極不可能中獎的州彩券,需要極多次的試驗,幾乎要多到不可能的次數,才能保證平均結果會接近期望值。

(州政府可不需要依賴大數法則,因為樂透彩金不像賭場的遊戲,樂透彩用的是同注分彩系統。在同注分彩系統裡面,彩金和賠率是由實際下注金額決定的。舉例來說,各州所辦的樂透彩金,是由全部賭金扣除州政府所得部分之後的剩餘金額來決定的。賭馬的賠率則是決定於賭客對不同馬匹的下注金額。)

雖然大部分的賭博遊戲不及樂透彩這樣多變化,但要回答大數法則的適用範圍,較實際的答案就是:賭場的贏錢金額期望值是正的,而賭場玩的次數夠多,所以可以靠著這個期望值贏錢。你的問題則是,你贏錢金額的期望值是負的。全體賭客玩的次數合起來算的話,當然和賭場一樣多,但因為期望值是負的,所以以賭客整體來看,長期下來一定輸錢。

然而輸的金額並不是由賭客均攤。有些人贏很多錢,有些人輸很多,而有些人沒什麼輸贏。賭博帶給人的誘惑,大部分是來自賭博結果的無法預測。而賭博這門生意仰賴的則是:對賭場來說,結果並非不可測的。

對賭場來說,贏錢金額期望值為正。圖/envatoelements
  • 有沒有保證贏錢的賭法?

把賭博很當回事的賭客常常遵循某種賭法,這種賭法每次下注的金額,是看前幾次的結果而定。比如說,在賭輪盤時,你可以每次把賭注加倍,直到你贏為止—或者,當然,直到你輸光為止。即使輪盤並沒有記憶,這種玩法仍想利用你有記憶這件事來贏。

你可以用一套賭法來戰勝機率嗎?不行,數學家建立的另一種大數法則說:如果你沒有無窮盡的賭本,那麼只要遊戲的各次試驗(比如輪盤的各次轉動)之間是獨立的,你的平均獲利(期望值)就會是一樣的。抱歉啦!

  • 高科技賭博

全美國有超過 700,000 台吃角子老虎(拉霸)。從前,你丟硬幣進去再拉下把手,轉動三個輪子,每個輪子有 20 個圖案。但早就不是這樣了。現在的機器是電動遊戲,會閃出許多很炫的畫面,而結果是由隨機數字產生器決定的。

機器可以同時接受許多硬幣,有各種讓你眼花撩亂的中獎結果,還可以多台連線,共同累積成連線大獎。賭徒仍在尋找可以贏錢的賭法,但是長期下來,隨機數字產生器會保證賭場有 5% 的利潤。

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

所有討論 2
天下文化_96
122 篇文章 ・ 604 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

2
2

文字

分享

0
2
2
假藥也能治療?安慰劑效應的原因:「不」隨機化實驗!——《統計,讓數字說話》
天下文化_96
・2023/03/03 ・1932字 ・閱讀時間約 4 分鐘

  • 作者:墨爾 David S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

實驗法中「隨機化」的必要性

隨機化比較實驗是統計學裡面最重要的概念之一。它的設計是要讓我們能夠得到釐清因果關係的結論。我們先來弄清楚隨機化比較實驗的邏輯:

  • 用隨機化的方法將受試者分組,所分出的各組在實施處理之前,應該各方面都類似。
  • 之所以用「比較」的設計,是要確保除了實驗上的處理外,其他所有因素都會同樣作用在所有的組身上。
  • 因此,反應變數的差異必定是處理的效應所致。

我們用隨機方法選組,以避免人為指派時可能發生的系統性偏差。例如在鐮形血球貧血症的研究中,醫師有可能下意識就把最嚴重的病人指派到羥基脲組,指望這個正在試驗的藥能對他們有幫助。那樣就會使實驗有偏差,不利於羥基脲。

從受試者中取簡單隨機樣本來當作第一組,會使得每個人被選入第一組或第二組的機會相等。我們可以預期兩組在各方面都接近,例如年齡、病情嚴重程度、抽不抽菸等。舉例來說,隨機性通常會使兩組中的吸菸人數差不多,即使我們並不知道哪些受試者吸菸。

實驗組與對照組除主要測量變數外,其餘條件必需盡可能相似。圖/envatoelements

新藥研究上不隨機分組帶來的後果:安慰劑效應

如果實驗不採取隨機方式,潛藏變數會有什麼影響呢?安慰劑效應就是潛藏變數,只有受試者接受治療後才會出現。如果實驗組別是在當年不同時間進行治療,所以有些組別是在流感季節治療,有些則不是,那麼潛藏變數就是有些組別暴露在流感的程度較多。

在比較實驗設計中,我們會試著確保這些潛藏變數對全部的組別都有相似的作用。例如為了確保全部的組別都有安慰劑效應,他們會接受相同的治療,全部的組別會在相同的時間接受相同的治療,所以暴露在流感的程度也相同。

要是告訴你,醫學研究者對於隨機化比較實驗接受得很慢,應該不會讓你驚訝,因為許多醫師認為一項新療法對病人是否有用,他們「只要看看」就知道。但事實才不是這樣。有很多醫療方法只經過單軌實驗後就普遍使用,但是後來有人起疑,進行了隨機化比較實驗後,卻發覺其效用充其量不過是安慰劑罷了,這種例子已經不勝枚舉。

曾有人在醫學文獻裡搜尋,經過適當的比較實驗研究過的療法,以及只經過「歷史對照組」實驗的療法。用歷史對照組做的研究不是把新療法的結果和控制組比,而是和過去類似的病人在治療後的效果做比較。結果,納入研究的 56 種療法當中,用歷史對照組來比較時,有 44 種療法顯示出有效。然而在經過使用合適的隨機化比較實驗後,只有 10 種通過安慰劑測試。即使有跟過去的病人比,醫師的判斷仍過於樂觀。

過去醫學史上常出現新藥實際沒療效,只能充當安慰劑效果的情況。圖/envatoelements

目前來說,法律已有規定,新藥必須用隨機化比較實驗來證明其安全性及有效性。但是對於其他醫療處置,比如手術,就沒有這項規定。上網搜尋「comparisons with historical controls」(以歷史對照組來比較)這個關鍵字,可以找到最近針對曾使用歷史對照組試驗的其他醫療處置,所做的研究。

對於隨機化實驗有一件重要的事必須注意。和隨機樣本一樣,隨機化實驗照樣要受機遇法則的「管轄」。就像抽一個選民的簡單隨機樣本時,有可能運氣不好,抽到的幾乎都是相同政治傾向一樣,隨機指派受試者時,也可能運氣不好,把抽菸的人幾乎全放在同一組。

我們知道,如果抽選很大的隨機樣本,樣本的組成和母體近似的機會就很大。同樣的道理,如果我們用很多受試者,加上利用隨機指派方式分組,也就有可能與實際情況非常吻合。受試者較多,表示實驗處理組的機遇變異會比較小,因此實驗結果的機遇變異也比較小。「用足夠多的受試者」和「同時比較數個處理」以及「隨機化」,同為「統計實驗設計」的基本原則。

實驗設計的原則
統計實驗設計的基本原則如下:
1. 要控制潛在變數對反應的影響,最簡單的方法是同時比較至少兩個處理。
2. 隨機化:用非人為的隨機方法指派受試者到不同的實驗處理組。
3. 每一組的受試者要夠多,以減低實驗結果中的機遇變異。

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

天下文化_96
122 篇文章 ・ 604 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

1
0

文字

分享

0
1
0
強核力與弱核力理論核心:非阿貝爾理論——《撞出上帝的粒子》
貓頭鷹出版社_96
・2023/01/28 ・1733字 ・閱讀時間約 3 分鐘

非阿貝爾理論

量子色動力學與弱核力理論有個更為奇特的性質,兩者都是「非阿貝爾理論」 (non-Abeliantheories)。非阿貝爾的意思是強核力與弱核力理論核心(參見【科學解釋 6】)的對稱群代數是不可交換的。簡單來說就是「A 乘 B」不等於「B 乘 A」。

一般人的常識會告訴你,如果隨便拿兩個數字 A 和 B,用 A 乘 B 的結果永遠會和用 B 乘 A 一樣,你用計算機怎麼試答案都不變。一個袋子裝三塊錢、兩個袋子總共是六塊錢;一個袋子裝兩塊錢,三個袋子總共還是六塊錢。

如果隨便拿兩個數字 A 和 B,用 A 乘 B 的結果永遠會和用 B 乘 A 一樣。圖/pixabay

這件事對數字永遠都成立,是千真萬確的事實。然而,我們有個很好的方法能定義出一套數學架構,其中的 AB 不等於 BA。實際上,數學家已經鑽研這個領域很多年了。

條條大路通數學

或許更驚人的是,物理學家竟然也在許多地方應用這套數學,因為某些和物理學相關的事物也是 AB 不等於 BA。矩陣就是我們表示這些東西的一種方式。現在我在倫敦大學學院為新生上的數學方法課就有介紹矩陣力學。以前我的學校制定了一套「新數學」的課綱,所以我在年僅十五歲的時候就多少認識一點矩陣了。

數學的一個矩陣是一群按照行列排列整齊的數字。把兩個矩陣 A 和 B 相乘,會得到另一個矩陣 C,方法是把對應的列和行上面的數字依序相乘。

這種矩陣聽起來可能不像某部電影裡面那掌控一切、創造虛擬實境的超級電腦一樣迷人,卻有用的多。這部電影的角色身穿黑色皮衣,還有出現著名的慢動作躲子彈鏡頭

慢動作躲子彈鏡頭。圖/giphy

我來舉個例子。

你可以用一個矩陣來描述你移動某個物體的結果。相乘的順序(AB 或 BA)在這個例子有明顯的區別。物體先在原地轉九十度再向前直直走十公尺,和先走十公尺再轉九十度,兩種移動方式最後的終點顯然不會相同。假設矩陣B代表旋轉,矩陣 A 代表直行,那麼合在一起的「旋轉後直行」就是矩陣(C = AB);這和「直行後旋轉」的矩陣(D = BA)必定不會相同。C 不等於 D,所以 AB 不等於 BA。要是 AB 和 BA 永遠相同,我們就沒辦法用矩陣來描述這類的移動過程了。正是因為矩陣的乘法不可交換―非阿貝爾,這個工具才會如此有用。

數學和真實世界密不可分

在狄拉克試圖要找出能描述高速電子的量子力學方程式時,矩陣被證實是他所需要的工具。實際上,電子有某項特性讓狄拉克不得不使用矩陣來表示它,這項特性與他描述電子自旋的語言同出一轍;所有原子的行為和元素周期表的規律,都與自旋有深刻的關聯。除此之外,這個性質也啟發狄拉克去預測有反物質的存在。

數學和真實世界之間似乎有緊密的關係,這讓我讚嘆不已。優秀的研究要能解決問題、也要能提出好的問題。而問題永遠比解答還要多,為了研究我們要付出許多的時間和金錢,因此大家得做出抉擇。數學是威力極大的工具,能幫助科學家檢查實驗數據、並從結果當中尋找最有趣的新實驗方向。就算有些方法和結論,好比矩陣及反物質,看起來可是相當古怪的。

秉持著這份精神,我要在繼續討論希格斯粒子搜索實驗之前,先繞個路來講微中子,最後這回要介紹的是一個很重要的真實結果。2012 年 3 月 7 日,中國的大亞灣核反應爐微中子實驗(DayaBay Reactor Neutrino Experiment)發表了最新的研究成果。

One of the Daya Bay detectors.圖/wikipedia

他們的實驗結果不但對標準模型影響重大,也會決定粒子物理學未來的研究走向。如果你只想要繼續讀希格斯粒子的故事,大可跳過這一段沒關係,下一節再見。但是微中子的粉絲可千萬別錯過精彩好戲了!

——本文摘自《撞出上帝的粒子:深入史上最大實驗現場》,2022 年 12 月,貓頭鷹出版,未經同意請勿轉載。

貓頭鷹出版社_96
56 篇文章 ・ 23 位粉絲
貓頭鷹自 1992 年創立,初期以單卷式主題工具書為出版重心,逐步成為各類知識的展演舞台,尤其著力於科學科技、歷史人文與整理台灣物種等非虛構主題。以下分四項簡介:一、引介國際知名經典作品如西蒙.德.波娃《第二性》(法文譯家邱瑞鑾全文翻譯)、達爾文傳世經典《物種源始》、國際科技趨勢大師KK凱文.凱利《科技想要什麼》《必然》與《釋控》、法國史學大師巴森《從黎明到衰頹》、瑞典漢學家林西莉《漢字的故事》等。二、開發優秀中文創作品如腦科學家謝伯讓《大腦簡史》、羅一鈞《心之谷》、張隆志組織新生代未來史家撰寫《跨越世紀的信號》大系、婦運先驅顧燕翎《女性主義經典選讀》、翁佳音暨曹銘宗合著《吃的台灣史》等。三、也售出版權及翻譯稿至全世界。四、同時長期投入資源整理台灣物種,並以圖鑑形式陸續出版,如《台灣原生植物全圖鑑》計八卷九巨冊、《台灣蛇類圖鑑》、《台灣行道樹圖鑑》等,叫好又叫座。冀望讀者在愉悅中閱讀並感受知識的美好是貓頭鷹永續經營的宗旨。