機率理論對「記錄」的研究有很完整的系統。其數學繁複,但相當有趣,有興趣的讀者可以找相關書籍來看,例如 Jiri Andel(2001)的 Mathematics of Chance。
這個理論從一個前提出發:觀察序列中的資料是遵循相同機率分布而且相互獨立(iid,編按:Independently and identically distributed)的隨機變數。在這個假設之下,我們可以導出在 n 個資料點中有 r 個紀錄(包括第一個資料點)的機率分布。這個前提可以說是「正常」狀況的「虛無假設」:它代表觀察序列中資料的產生過程完全相同,沒有任何異常現象或動態趨勢。如果我們的經驗資料與這個假設之下的機率分布不相諧,根據傳統次數主義(frequentist)統計推論的方法,我們可以在一定的統計水平之下拒絕虛無假設而判定異常現象的存在。
以台北市年低溫的歷史資料來說,我們可以算出在 n = 124 個觀察值的序列資料中出現 r (r = 1,2,3,…,124)個紀錄的機率分布,然後從這分布算出 r 大於或等於 10 的右尾機率。如果這個機率小於相約成俗的顯著水平 0.05,我們判定歷史資料與虛無假設不相諧,從而排除台北市年低溫變遷沒有異常現象的前提。依照傳統統計推論,我們可以做出台北市年低溫變遷有異常現象的結論。
以 Rn 代表在 iid 假設之下,n = 124 個序列資料中有 r 個紀錄的隨機變數,圖四便是 Rn = r 的機率分布。從這個機率分布我們可以算得 Rn 的期望值是 E ( Rn ) = 5.40,變異量是 Var ( Rn ) = 3.76,也很容易直接算得右尾機率 P (Rn ≥ 10) = 0.025。因為這個機率小於 0.05,單尾檢定讓我們得到台北市年低溫屢破歷史上限紀錄是異常現象的結論。(如果一定要用雙尾檢定,這個結論就有點勉強。)
-----廣告,請繼續往下閱讀-----
Rn 的機率分布並不容易算,有一個遞歸公式,當 n 較大時,需要很大的計算能量或很久的時間才算得出。要迅速算出,必須用到所謂「第一類史特靈數」(Stirling Numbers of the First Kind)。如果你的軟體沒有這個函數,可以利用這兩個很漂亮的公式來算 Rn 的期望值和變異量:
台大電機系畢業,美國明尼蘇達大學政治學博士,
現任教於美國德州大學奧斯汀校區政府系。
林教授每年均參與中央研究院政治學研究所及政大選研中心
「政治學計量方法研習營」(Institute for Political Methodology)的教學工作,
並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。
林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。
其後,歐盟執行委員舉辦著作權討論的公眾諮詢論壇,以線上資料及問卷收集眾多回饋,廣納民眾意見。加上德國海盜黨的 Julia Reda 努力帶動人民討論、彙整意見並作成報告,歐盟於 2015 年通過修正案,賦予圖書館、資料庫線上化其收藏的權利、開放電子書於網路流傳,同時批准資料與文字探勘不須再取得任何特許憑證。即使取得這些勝利,著作權法的規定仍未完全修正到符合現狀的境界,需要持續推動改革。