0

文字

繁 | 简

0

專欄

資料科學如何解決真實世界的問題？認識資料極限，打開分析視野－專訪DSP智庫驅動知識長謝宗震

陳妤寧・2016/05/24 ・4572字・閱讀時間約 9 分鐘・SR值 550

・八年級

相關標籤：

熱門標籤：

採訪編輯 / 陳妤寧

將 Big Data 回歸資料科學的本質，除了資訊工程之外，「統計」這個學門在 Big Data 時代能夠如何讓「數據」發揮更大價值？而在相信數據的無所不能之前，如何檢驗資料的可靠性、確定資料能解決的問題極限、甚至判斷結果背後的統計方式？本篇專訪邀請到清華統計所博士後研究員謝宗震，同時也是以推廣資料科學為目標的社會企業「DSP 智庫驅動」的知識長，分享如何透過資料科學解決真實世界的問題。

隨著時代演進的資料科學－大、雜、快、疑

「數據是人類活動的歷史記錄，透過資料科學『以古鑑今』是追求進步的捷徑。」謝宗震說，
一般來說，談及現今的資料科學或是 Big Data 都會提到 3 + 1 個特性：大、快、雜、疑。

隨著科技的發展，人類活動的軌跡越來越能夠被詳實記錄，譬如人們瀏覽電子新聞、購物商城的軌跡，人與人在社群網站的互動過程，人在操作汽車、電視、冷氣的習慣…等等。這種進步就好比是從一幅自畫像進步到一張照片，再到一部電影，現在甚至已經發展到近乎24小時不間段的實境節目。在人類活動被無時無刻記錄的同時，資料的量級爆炸性的成長，有一說：「現今世上的資料等於一個人每天24小時不停觀看超過2千億部的2小時HD電影，必須花上4700萬年才能看完。」

-----廣告，請繼續往下閱讀-----

「Data Mining 是解析數據的方法，他的精神是連結不同來源的資料並挖掘價值，而不只是單一資料表分析而已。」謝宗震說，資料採礦（Data Mining）打從 1980 年代就伴隨高科技產業降生，台灣民間也在大約十五年前開始出現 Data Mining 的相關課程和協會，發展的一大關鍵在於資料倉儲的發展，使得「存取不同來源的大量資料」變得越來越便利。

以量販店的資料為例，就包括了產品庫存、發票銷售資料、產品擺放的順序、促銷資料、員工出勤資料……各式各樣的資料可能都儲存在不同的部門、不同的資料庫。除此之外，網路上各種影片、音樂、等難以量化或沒有標準欄位的資料的出現，也讓資料儲存的類型變得更為複雜。

在資料存儲的「巨量性」與「多樣性」之外，因應電子商務時代對「時效性」的要求，運算速度的需求也隨之提高。以著名的電話辨識 app「Whoscall」為例，為了協助使用者在接起電話之前，判別陌生來電是否為其他使用者回報的詐騙或騷擾電話，「Whoscall」必須在短短幾秒內告訴使用者這通電話該不該接。「資料越來越龐大，要讓使用者能在短時間內獲得反饋，提昇電腦計算能力和簡化演算方式就成為重要的發展方向。而後者正是統計人在資料科學中的任務。」謝宗震說。

除了「大」、「雜」、「快」，大數據近年還出現了第四個特性－「疑」，也就是指資料的「可靠性」問題。如果無法先檢驗資料的品質和來源，一味的把搜集到的數據趕快送進運算模型，「那麼只是『Garbage in, garbage out』。」舉例來說，當我們希望利用社群網站上的討論資料來分析選舉情勢，例如哪個候選人的討論度較高、討論是以正評還是負評居多。在此之前應該先關心網路上的討論者都是哪裡來的？如果這些討論者根本不隸屬於這個選區、甚至這些討論其實源出於機器人、殭屍，那麼這些「品質不佳」的資料就無法有力計算出具有參考價值的候選人支持度。

-----廣告，請繼續往下閱讀-----

那麼，具體來拆解資料科學，可以分成哪些工作階段和角色？

資料科學的生命循環，交給四種角色通力合作

資料科學的生命循環，可對應到四種不同的角色。「資料產品經理人」負責將真實世界的問題轉換成資料可以解決的問題，通常是該問題領域的專業人士；「資料工程師」負責蒐集、整理、清理資料，通常是具備程式技術能力的工程師；「資料分析師」負責資料建模和分析，通常由擅長找出資料關聯的統計人擔當；「資料視覺化設計師」的任務則是要將報表變得簡明易懂。

「每種角色各有專精，但只有整合訓練、了解彼此的領域重點為何，才能形成完整的資料科學家的視野或團隊。」正因如此，由 Code for Tomorrow 孵化出來的社會企業「DSP 智庫驅動」，在設計資料科學的課程也更注重讓不同角色的「資料人」能夠在此學習和資料產品經理人、資料工程師、統計分析師、資料視覺化設計師合作，形成團隊共同進行專案實戰，幫助非營利組織和企業激發資料價值。

謝宗震以自己參加過的 Code for Healthcare 工作坊為例，實際說明資料科學的生命循環。小組成員包含：氣爆受災戶、救災人員、醫護人員、資料科學家、視覺設計師。小組研究的主題為高雄八一氣爆意外後的救護資訊，重大災難發生的當下，第一線消防人員如何得知高高屏地區醫院的急診室承載量，進一步決定如何把傷患送往哪間醫院？決定設計問題的第一步後，小組蒐集高高屏地區資料庫中每五分鐘更新的急診室資料，包括外科醫生人數、病患人數、傷患嚴重程度、呼吸器和各種設備的數量……。當欄位都蒐集好，接下來才是真正試算：如果意外現場有三十個人受傷，那麼最佳路徑下應該優先送到哪間醫院？如果高高屏地區滿載，是否應向北去找台南醫院協助？有些醫院雖然略遠，但是否在急診室不用排隊？當運算模型完備，最後可由資工專業寫成 app，提供給救護單位使用。

-----廣告，請繼續往下閱讀-----

不過在踏入分析之前，謝宗震認為先練習「資料思考」更為重要，所謂先認識再交往，面對資料也要先多做評估，後續展開的分析才會更順利。

先了解資料的「極限」，才能展開有效分析

在建立模型、著手分析之前，如何蒐集、整理資料有著同等的重要性。手上資料能提供的訊息若不足以解答問題，那麼貿然展開分析便是緣木求魚。謝宗震說：「在 DSP 智庫驅動的課程中，我們會拿 YouBike 的公開資料當做上課教材，有些學員希望分析每個使用者從 A 點到 B 點會花多少時間，進一步替週遭店家推播廣告。然而 YouBike 提供的資料僅有『每個站點在每五分鐘有幾台車被騎走』，而沒有詳細的路線資訊。因此除非回過頭去徵求開放更多更精細的資料，目標問題是無法獲得解答的。」

謝宗震分享自身經驗：「在上課的時候，我們遇過最多學員的動機和問題是：『我不知道公司的資料要怎麼用，但資料科學很紅，我應該來進修。』所以我們將課程稍作微調，讓學員先練習『資料思考 Data Thinking』、了解資料能解決問題的極限在哪裡。舉例來說，如果我是一家希望分析手上銷售資料的速食店，但萬一銷售資料沒有記錄漢堡的類別，我就不可能找出人氣漢堡！」

當大數據時代幾乎能「海納百川」地計算海量的資料，傳統的「抽樣」方法以及必須隨之處理的「抽樣誤差」問題，是否就能夠一概免除？「很多書都會說，既然 Big Data 能蒐集並運算所有的資料的情況下，就能免除抽樣誤差的煩惱，但資料只是真實世界的片段，不可能透過資料完整反應真實世界。」謝宗震跳出大數據本位，直率地分析數據的極限。「就以台北市選舉的網路意見調查為例，可能很多發言者根本不設籍在台北市；而很多只是『潛水』閱讀而沒有公開發言的人，也不會形成資料；更甚者，有很多人可能連上網的能力都尚不具備！」

-----廣告，請繼續往下閱讀-----

統計在做什麼？分析建模讓資料分析結果更精緻

目前資料科學領域中，統計人的身影遠少於資工人，謝宗震怎麼看待統計人在資料科學中的價值？他認為關鍵在於演算模型的建立，這個模型可用每個輸入值（x，Input）對應輸出值（f(x)， Output）的函數關係來理解，資料被丟進此黑盒子進行運算，最後得出分析結果，而黑盒子中的方程式或各種演算法，就是統計建模的核心。「如果單純使用平均數或簡易的算法當然也能做出結果，但精緻度是不同的。」而分析建模正是統計的優勢所在。

為了要得到品質好、有代表性的資料，整理資料的過程也需要統計建模的幫忙，例如當問卷欄位上出現缺漏值，「有些人就是不喜歡填身高、體重、和心得，但如果他們有填寫其他題項，就能運用建模來反推可能的缺漏答案。」種種功夫，都是為了在正式展開分析之前，能夠確保資料品質能具有真正的參考價值。

除了計算資料，統計也能幫助我們更好地判讀資料。因為同樣一筆資料，透過不同的統計方法，可能得出天差地遠的結果，進而影響我們對於數據分析的認知立場。

統計在做什麼？洞察數據背後玄機，不同計算方式兩樣情

一般人看到充滿說服力的統計數字時，很容易忽視統計過程中所使用的方法，而直接相信算出來的「結果」。以「貧富差距」報告為例，比較「最富和最貧的年收入差距」是很有感的指標，但是倍數怎麼算，背後其實大有不同的算法。在不同的計算方式之下，一模一樣的原始數據，可能得出「6.08倍」和「99.39倍」這兩種相距甚大的年收入差距。

-----廣告，請繼續往下閱讀-----

「要計算『最富有的那群人』和『最貧窮的那群人』的差距，可以依每戶綜所稅申報所得分成五等分，擷取最富和最貧的 20%，再將兩群的平均值相除得6.08。另一方面，也可以將人們分成二十等分，以最富最貧的5%計算得99.39倍，而美國、日本、澳洲以及國際組織如CIA、OECD的計算方式則為 10%。無論如何，當取樣的比例分別是 5%、10%或 20% 的時候，就會出現不同的統計結果。人們可以選出對自己最有利的計算方式。」

要更精準、更客觀的研究貧富差距，其實不能只看一兩個指標就下判斷。「較好的作法是連續比較 5%、10%、20% 一直到 50% 的差異為何，才能看的出演變趨勢。例如若以 20% 為標準時今年相對於去年的貧富差距變小、10% 時貧富差距上升，那麼代表中等富有和中等貧窮的群族差距拉近了、然而極端富有和極端貧窮的人反而差距更大了。」在貧富差距這個議題中，貧和富能分成更多種，進行更細緻的討論。而對不熟悉統計的一般人來說，至少可以學習注意兩件事：一、伴隨數字後面的「單位」是什麼？二、同一筆資料存在著不同的算法，在相信結果之前，應先留心它是如何被算出來的，而不是讓自己被數字牽著鼻子走。

總之，「資料是真實世界的一部分，指標是資料的一部分，一種指標只是反應資料的某一種面向，並不代表全部，唯有清楚知道指標的特質才能貼近真實。」

談了這麼多統計人的身懷絕技，但在 Big Data 時代，統計人會遇到什麼挑戰、應該如何自我調適才能充分大展身手？

-----廣告，請繼續往下閱讀-----

面對 Big Data 時代，統計人要如何讓自己發揮價值？

「統計這門學科在每個時代都可以『玩資料』，有問題、有資料，就能建立模型分析問題。」謝宗震說，然而現在的 Big Data 時代，統計人難以好整以暇地等客戶捧上問題和資料再著手分析，資料「反客為主」，許多時候連客戶也不一定知道他想問的問題是什麼，統計人必須更主動參與第一線，甚至規劃如何蒐集資料，而非面對已經固定欄位的資料庫一籌莫展。如果統計人無法習慣處理非結構化的第一線資料，就如同打不開冰箱的廚師，拿不到食材，就更別談烹調出美味的食物了。

以電子商務領域為例，商家充滿各式各樣的疑問：要如何促進買氣？要推播給會員什麼廣告？廣告應該放在網站中的那個位置效果會最好？統計人應當參與更多第一線規劃蒐集資料的細節，然而現在設計網站與資料欄位的人卻少有統計學家的蹤影。「促銷應該統計過去一周賣的最好的前十名商品、還是消費者最想買的前十名商品？要計算廣告成效，應該以點擊率、還是最後轉換的購買率或購買金額為標準？」要得出更細緻的答案，就需要統計人更大程度的參與。若能從中改善使用者體驗，也就能搜集到更好的資料、做出更好的解讀。讓大數據不只是躺在資料庫中，而能走入真實世界，解決更多的真實問題。

（本文由科技部補助「新媒體科普傳播實作計畫－智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿）

責任編輯：鄭國威

-----廣告，請繼續往下閱讀-----

大數據專題報導系列：

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 0

登入與大家一起討論

陳妤寧

38 篇文章・ 1 位粉絲

熱愛將知識拆解為簡單易懂的文字，喜歡把一件事的正反觀點都挖出來思考，希望用社會科學的視角創造更宏觀的視野。

TRENDING 熱門討論

即時熱門

1

文字

0

1

停工即停薪：如何證明你的時間值多少？車禍背後的認知 x 情緒 x 金錢 x 法律大混戰

鳥苷三磷酸 (PanSci Promo) ・2026/01/09 ・3351字・閱讀時間約 6 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

本文與 PAMO車禍線上律師合作，泛科學企劃執行

走在台灣的街頭，你是否發現馬路變得越來越「急躁」？滿街穿梭的外送員、分秒必爭的多元計程車，為了拚單量與獎金，每個人都在跟時間賽跑。與此同時，拜經濟發展所賜，路上的豪車也變多了。

這場關於速度與金錢的博弈，讓車禍不再只是一場意外，更是一場複雜的經濟算計。PAMO 車禍線上律師施尚宏律師在接受《思想實驗室 video podcast》訪談時指出，我們正處於一個交通生態的轉折點，當「把車當生財工具」的職業駕駛，撞上了「將車視為珍貴資產」的豪車車主，傳統的理賠邏輯往往會失靈。

在「停工即停薪」（有跑才有錢，沒跑就沒收入）的零工經濟時代，如果運氣不好遇上車禍，我們該如何證明自己的時間價值？又該如何在保險無法覆蓋的灰色地帶中全身而退？

-----廣告，請繼續往下閱讀-----

如果運氣不好遇上車禍，我們該如何證明自己的時間價值？/ 圖片來源: Nano Banana

薪資證明的難題：零工經濟者的「隱形損失」

過去處理車禍理賠，邏輯相對單純：拿出公司的薪資單或扣繳憑單，計算這幾個月的平均薪資，就能算出因傷停工的「薪資損失」。

但在零工經濟時代，這套邏輯卡關了！施尚宏律師指出，許多外送員、自由接案者或是工地打工者，他們的收入往往是領現金，或者分散在多個不同的 App 平台中。更麻煩的是，零工經濟的特性是「高度變動」，上個月可能拚了 7 萬，這個月休息可能只有 0 元，導致「平均收入」難以定義。

這時候，律師的角色就不只是法條的背誦者，更像是一名「翻譯」。

施律師解釋「PAMO車禍線上律師的工作是把外送員口中零散的『跑單損失』，轉譯成法官或保險公司聽得懂的法律語言。」這包括將不同平台（如 Uber、台灣大車隊）的流水帳整合，或是找出過往的接單紀錄來證明當事人的「勞動能力」。即使當下沒有收入（例如學生開學期間），只要能證明過往的接單能力與紀錄，在談判桌上就有籌碼要求合理的「勞動力減損賠償」。

-----廣告，請繼續往下閱讀-----

PAMO車禍線上律師的工作是把外送員口中零散的『跑單損失』，轉譯成法官或保險公司聽得懂的法律語言 / 圖片來源: Nano Banana

300 萬張罰單背後的僥倖：你的直覺，正在害死你

根據警政署統計，台灣交通違規的第一名常年是「違規停車」，一年可以開出約 300 萬張罰單。這龐大的數字背後，藏著兩個台灣駕駛人最容易誤判的「直覺陷阱」。

陷阱 A：我在紅線違停，人還在車上，沒撞到也要負責？ 許多人認為：「我人就在車上，車子也沒動，甚至是熄火狀態。結果一台機車為了閃避我，自己操作不當摔倒了，這關我什麼事？」

施律師警告，這是一個致命的陷阱。「人在車上」或「車子沒動」在法律上並不是免死金牌。法律看重的是「因果關係」。只要你的違停行為阻礙了視線或壓縮了車道，導致後方車輛必須閃避而發生事故，你就可能必須背負民事賠償責任，甚至揹上「過失傷害」的刑責。

數據會說話：台灣每年約有 700 件車禍是直接因違規停車導致的。這 300 萬張罰單背後的僥倖心態，其巨大的代價可能是人命。

-----廣告，請繼續往下閱讀-----

陷阱 B：變換車道沒擦撞，對方自己嚇到摔車也算我的？ 另一個常年霸榜的肇事原因是「變換車道不當」。如果你切換車道時，後方騎士因為嚇到而摔車，但你感覺車身「沒震動、沒碰撞」，能不能直接開走？

答案是：絕對不行。

施律師強調，車禍不以「碰撞」為前提。只要你的駕駛行為與對方的事故有因果關係，你若直接離開現場，在法律上就構成了「肇事逃逸」。這是一條公訴罪，後果遠比你想像的嚴重。正確的做法永遠是：停下來報警，釐清責任，並保留行車記錄器自保。

正確的做法永遠是：停下來報警，釐清責任，並保留行車記錄器自保。/ 圖片來源: Nano Banana

保險不夠賠？豪車時代的「超額算計」

另一個現代駕駛的惡夢，是撞到豪車。這不僅是因為修車費貴，更因為衍生出的「代步費用」驚人。

-----廣告，請繼續往下閱讀-----

施律師舉例，過去撞到車，只要把車修好就沒事。但現在如果撞到一台 BMW 320，車主可能會主張修車的 8 天期間，他需要租一台同等級的 BMW 320 來代步。以一天租金 4000 元計算，光是代步費就多了 3 萬多塊。這時候，一般人會發現「全險」竟然不夠用。為什麼？

因為保險公司承擔的是「合理的賠償責任」，他們有內部的數據庫，只願意賠償一般行情的修車費或代步費。但對方車主可能不這麼想，為了拿到這筆額外的錢，對方可能會採取「以刑逼民」的策略：提告過失傷害，利用刑事訴訟的壓力（背上前科的恐懼），迫使你自掏腰包補足保險公司不願賠償的差額。

這就是為什麼在全險之外，駕駛人仍需要懂得談判策略，或考慮尋求律師協助，在保險公司與對方的漫天喊價之間，找到一個停損點。

談判桌的最佳姿態：「溫柔而堅定」最有效？

除了有單據的財損，車禍中最難談判的往往是「精神慰撫金」。施律師直言，這在法律上沒有公式，甚至有點像「開獎」，高度依賴法官的自由心證。

-----廣告，請繼續往下閱讀-----

雖然保險公司內部有一套簡單的算法（例如醫療費用的 2 到 5 倍），但到了法院，法官會考量雙方的社會地位、傷勢嚴重程度。在缺乏標準公式的情況下，正確的「態度」能幫您起到加分效果。

施律師建議，在談判桌上最好的姿態是「溫柔而堅定」。有些人會試圖「扮窮」或「裝兇」，這通常會有反效果。特別是面對看過無數案件的保險理賠員，裝兇只會讓對方心裡想著：「進了法院我保證你一毛都拿不到，準備看你笑話」。

相反地，如果你能客氣地溝通，但手中握有完整的接單紀錄、醫療單據，清楚知道自己的底線與權益，這種「堅定」反而能讓談判對手買單，甚至在證明不足的情況下（如外送員的開學期間收入），更願意採信你的主張。

車禍不只是一場意外，它是認知、情緒、金錢與法律邏輯的總和。

在這個交通環境日益複雜的時代，無論你是為了生計奔波的職業駕駛，還是天天上路的通勤族，光靠保險或許已經不夠。大部分的車禍其實都是小案子，可能只是賠償 2000 元的輕微擦撞，或是責任不明的糾紛。為了這點錢，要花幾萬塊請律師打官司絕對「不划算」。但當事人往往會因為資訊落差，恐懼於「會不會被告肇逃？」、「會不會留案底？」、「賠償多少才合理？」而整夜睡不著覺。

-----廣告，請繼續往下閱讀-----

PAMO看準了這個「焦慮商機」，推出了一種顛覆傳統的解決方案——「年費 1200 元的訂閱制法律服務 」。

這就像是「法律界的 Netflix」或「汽車強制險」的概念。PAMO 的核心邏輯不是「代打」，而是「賦能」。不同於傳統律師收費高昂，PAMO 提倡的是「大腦武裝」，當車禍發生時，線上律師團提供策略，教你怎麼做筆錄、怎麼蒐證、怎麼判斷對方開價合不合理等。

施律師表示，他們的目標是讓客戶在面對不確定的風險時，背後有個軍師，能安心地睡個好覺。平時保留好收入證明、發生事故時懂得不亂說話、與各方談判時掌握對應策略。

平時保留好收入證明、發生事故時懂得不亂說話、與各方談判時掌握對應策略。 / 圖片來源: Nano Banana

從違停的陷阱到訂閱制的解方，我們正處於交通與法律的轉型期。未來，挑戰將更加嚴峻。

-----廣告，請繼續往下閱讀-----

當 AI 與自駕車（Level 4/5）真正上路，一旦發生事故，責任主體將從「駕駛人」轉向「車廠」或「演算法系統」。屆時，誰該負責？怎麼舉證？

但在那天來臨之前，面對馬路上的豪車、零工騎士與法律陷阱，你選擇相信運氣，還是相信策略？ 先「武裝好自己的大腦」，或許才是現代駕駛人最明智的保險。

PAMO車禍線上律師官網：https://pse.is/8juv6k

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)

243 篇文章・ 319 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

2

文字

2

買樂透真的可以賺錢？大數法則揭示了賭博的真相！——《統計，讓數字說話》

天下文化・2023/03/05 ・2394字・閱讀時間約 4 分鐘

相關標籤：

熱門標籤：

id S. Moore、諾茨 William I. Notz
譯者：鄭惟厚、吳欣蓓

什麼是大數法則？

期望值的定義是：它是可能結果的一種平均，但在計算平均時，機率大的結果占的比重較高。我們認為期望值也是另一種意義的平均結果，它代表了如果我們重複賭很多次，或者隨機選出很多家戶，實際上會看到的長期平均。這並不只是直覺而已。數學家只要用機率的基本規則就可以證明，用機率模型算出來的期望值，真的就是「長期平均」。這個有名的事實叫做大數法則。

大數法則
大數法則（law of large numbers）是指，如果結果為數值的隨機現象，獨立重複執行許多次，實際觀察到的結果的平均值，會趨近期望值。

大數法則和機率的概念密切相關。在許多次獨立的重複當中，每個可能結果的發生比例會接近它的機率，而所得到的平均結果就會接近期望值。這些事實表達了機遇事件的長期規律性。正如我們在第 17 章提過的，它們是真正的「平均數定律」。

大數法則解釋了：為什麼對個人來說是消遣甚至是會上癮的賭博，對賭場來說卻是生意。經營賭場根本就不是在賭博。大量的賭客贏錢的平均金額會很接近期望值。賭場經營者事先就算好了期望值，並且知道長期下來收入會是多少，所以並不需要在骰子裡灌鉛或者做牌來保證利潤。

賭場只要花精神提供不貴的娛樂和便宜的交通工具，讓顧客川流不息進場就行了。只要賭注夠多，大數法則就能保證賭場賺錢。保險公司的運作也很像賭場，他們賭買了保險的人不會死亡。當然有些人確實會死亡，但是保險公司知道機率，並且依賴大數法則來預測必須給付的平均金額。然後保險公司就把保費訂得夠高，來保證有利潤。

-----廣告，請繼續往下閱讀-----

在樂透彩上做手腳

我們都在電視上看過樂透開獎的實況轉播，看到號碼球上下亂跳，然後由於空氣壓力而隨機彈跳出來。我們可以怎麼樣對開出的號碼做手腳呢？ 1980 年的時候，賓州樂透就曾被面帶微笑的主持人以及幾個舞台工作人員動了手腳。

他們把 10 個號碼球中的 8 顆注入油漆，這樣做會把球變重，因此可保證開出中獎號碼的 3 個球必定有那 2 個沒被注入油漆的號碼。然後這些傢伙就下注買該 2 個號碼的所有組合。當 6-6-6 跳出來的時候，他們贏了 120 萬美元。是的，他們後來全被逮到。

歷史上曾有主持人在樂透上做手腳，後來賺了 120 萬美元隨後被逮捕。圖／envatoelements。

深入探討期望值

跟機率一樣，期望值和大數法則都值得再花些時間，探討相關的細節問題。

多大的數才算是「大數」？

大數法則是說，當試驗的次數愈來愈多，許多次試驗的實際平均結果會愈來愈接近期望值。可是大數法則並沒有說，究竟需要多少次試驗，才能保證平均結果會接近期望值。這點是要看機結果的變異性決定。

-----廣告，請繼續往下閱讀-----

結果的變異愈大，就需要愈多次的試驗，來確保平均結果接近期望值。機遇遊戲一定要變化大，才能保住賭客的興趣。即使在賭場待上好幾個鐘頭，結果也是無法預測的。結果變異性極大的賭博，例如累積彩金數額極大但極不可能中獎的州彩券，需要極多次的試驗，幾乎要多到不可能的次數，才能保證平均結果會接近期望值。

（州政府可不需要依賴大數法則，因為樂透彩金不像賭場的遊戲，樂透彩用的是同注分彩系統。在同注分彩系統裡面，彩金和賠率是由實際下注金額決定的。舉例來說，各州所辦的樂透彩金，是由全部賭金扣除州政府所得部分之後的剩餘金額來決定的。賭馬的賠率則是決定於賭客對不同馬匹的下注金額。）

雖然大部分的賭博遊戲不及樂透彩這樣多變化，但要回答大數法則的適用範圍，較實際的答案就是：賭場的贏錢金額期望值是正的，而賭場玩的次數夠多，所以可以靠著這個期望值贏錢。你的問題則是，你贏錢金額的期望值是負的。全體賭客玩的次數合起來算的話，當然和賭場一樣多，但因為期望值是負的，所以以賭客整體來看，長期下來一定輸錢。

然而輸的金額並不是由賭客均攤。有些人贏很多錢，有些人輸很多，而有些人沒什麼輸贏。賭博帶給人的誘惑，大部分是來自賭博結果的無法預測。而賭博這門生意仰賴的則是：對賭場來說，結果並非不可測的。

-----廣告，請繼續往下閱讀-----

有沒有保證贏錢的賭法？

把賭博很當回事的賭客常常遵循某種賭法，這種賭法每次下注的金額，是看前幾次的結果而定。比如說，在賭輪盤時，你可以每次把賭注加倍，直到你贏為止—或者，當然，直到你輸光為止。即使輪盤並沒有記憶，這種玩法仍想利用你有記憶這件事來贏。

你可以用一套賭法來戰勝機率嗎？不行，數學家建立的另一種大數法則說：如果你沒有無窮盡的賭本，那麼只要遊戲的各次試驗（比如輪盤的各次轉動）之間是獨立的，你的平均獲利（期望值）就會是一樣的。抱歉啦！

高科技賭博

全美國有超過 700,000 台吃角子老虎（拉霸）。從前，你丟硬幣進去再拉下把手，轉動三個輪子，每個輪子有 20 個圖案。但早就不是這樣了。現在的機器是電動遊戲，會閃出許多很炫的畫面，而結果是由隨機數字產生器決定的。

機器可以同時接受許多硬幣，有各種讓你眼花撩亂的中獎結果，還可以多台連線，共同累積成連線大獎。賭徒仍在尋找可以贏錢的賭法，但是長期下來，隨機數字產生器會保證賭場有 5% 的利潤。

-----廣告，請繼續往下閱讀-----

——本文摘自《統計，讓數字說話》，2023 年 1 月，天下文化出版，未經同意請勿轉載。

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 2

登入與大家一起討論

#1

a0921003785彼得潘 2023/03/12

我去過澳門兩次印象極好的是車讓人地理幅員不大走路能到任何地方
我也進娛樂城玩“老虎機”其他的都帶“豪賭”性質
吃角子機較省連玩幾天就千元港幣上下
娛樂嘛早知道贏不了錢在乎的是偶而的小贏快感

天下文化

142 篇文章・ 626 位粉絲

天下文化成立於1982年。一直堅持「傳播進步觀念，豐富閱讀世界」，已出版超過2,500種書籍，涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫，也持續引領台灣社會與國際重要管理潮流同步接軌。

TRENDING 熱門討論

即時熱門

3

1

文字

0

3

1

我的身高有特別矮嗎？為什麼大多數女性身高都「差不多」！——《統計，讓數字說話》

天下文化・2023/03/04 ・2634字・閱讀時間約 5 分鐘

相關標籤：

熱門標籤：

id S. Moore、諾茨 William I. Notz
譯者：鄭惟厚、吳欣蓓

什麼是常態分布？

圖 13.3 和 13.4 裡的密度曲線，同屬一族特別重要的曲線：常態曲線。圖 13.7 再呈現了兩個常態密度曲線。常態曲線都是對稱、單峰、鐘形的，尾部降得很快，所以我們應該不會看到離群值。由於常態分布是對稱的，所以平均數和中位數都落在曲線的中間位置，而這也是尖峰所在。

常態曲線還有一個特別性質：我們可以用目測方式在曲線上找到它的標準差。對大部分其他的密度曲線，沒有法子這樣做。做法是這樣的。想像你要從山頂開始滑雪，山的形狀和常態曲線一樣。起先，你從山頂出發時，往下滑的角度非常陡：

幸好，在你還沒有直直墜下之前，斜坡就變緩了，你愈往下滑出去，坡度愈平：

曲率（curvature）發生改變的地方，是在平均數兩側、各距平均數一個標準差的位置。圖 13.7 的兩條曲線上都標示出了標準差。你如果用鉛筆沿著常態曲線描，應該可以感受到曲率改變的地方，進而找出標準差。

-----廣告，請繼續往下閱讀-----

常態曲線有個特別的性質是，只要知道平均數及標準差，整條曲線就完全確定了。平均數把曲線的中心定下來，而標準差決定曲線的形狀。變動常態分布的平均數並不會改變曲線的形狀，只會改變曲線在 x 軸上的位置。但是，變動標準差卻會改變常態曲線的形狀，如圖 13.7 所示。標準差較小的分布，散布的範圍比較小，尖峰也比較陡。以下是常態曲線基本性質的總結：

常態密度曲線的特性

常態曲線（normal curve）是對稱的鐘形曲線，具備以下性質：

只要給了平均數和標準差，就可以完全描述特定的常態曲線。
平均數決定分布的中心，這個位置就在曲線的對稱中心。
標準差決定曲線的形狀，標準差是指從平均數到平均數左側或右側的曲率變化點的距離。

為什麼常態分布在統計裡面很重要呢？首先，對於某些真實數據的分布，用常態曲線可以做很好的描述。最早將常態曲線用在數據上的是大數學家高斯（Carl Friedrich Gauss, 1777 – 1855）。

天文學家或測量員仔細重複度量同一個數量時，所得出的量測值會有小誤差，高斯就利用常態曲線來描述這些小誤差。你有時候會看到有人把常態分布叫做「高斯分布」，就是為了紀念高斯。

-----廣告，請繼續往下閱讀-----

十九世紀的大部分時間中，常態曲線曾叫做「誤差曲線」，也就因為常態曲線最早是用來描述量測誤差的分布。後來慢慢發現，有些生物學或心理學上的變數也大致符合常態分布時，「誤差曲線」這個名詞就不再使用了。1889 年，高騰（Francis Galton）率先把這些曲線稱做「常態曲線」。高騰是達爾文的表弟，他開拓了遺傳的統計研究。

常態分布的形狀：鐘形曲線

人類智慧高低的分布，是不是遵循常態分布的「鐘形曲線」？IQ 測驗的分數的確大致符合常態分布，但那是因為測驗分數是根據作答者的答案計算出來的，而計算方式原本就是以常態分布為目標所設計的。要說智慧分布遵循鐘形曲線，前提是：大家都同意 IQ 測驗分數可以直接度量人的智慧。然而許多心理學家都不認為世界上有某種人類特質，可以讓我們稱為「智慧」，並且可以用一個測驗分數度量出來。

當我們從同一母體抽取許多樣本時，諸如樣本比例（當樣本大小很大、而比例的數值中等時）及樣本平均數（當我們從相同母體取出許多樣本時）這類統計量的分布，也可以用常態曲線來描述。我們會在後面的章節進一步細談統計分布。

抽樣調查結果的誤差界限，也常常用常態曲線來算。然而，即使有許多類的數據符合常態分布，仍然有許多是不符合的，比如說，大部分的所得分布是右偏的，因而不是常態分布。非常態的數據就和不平常的人一樣，不僅常見，而且有時比常態的數據還有趣。

-----廣告，請繼續往下閱讀-----

68 – 95 – 99.7 規則

常態曲線有許多，每一個常態曲線都可以用各自的平均數和標準差來描述。所有常態曲線都有許多共同性質，特別要提的是，對常態分布來說，標準差是理所當然的量度單位。這件事實反映在下列規則當中。

68 – 95 – 99.7 規則
在任何常態分布當中，大約有 68% 的觀測值，落在距平均數一個標準差的範圍內。
95% 的觀測值，落在距平均數兩個標準差的範圍內。
99.7% 的觀測值，落在距平均數三個標準差的範圍內。

圖13.8、68–95–99.7規則。圖／《統計，讓數字說話》。

圖 13.8 說明了 68 – 95 – 99.7 規則。記住這三個數字之後，你就可以在不用一直做囉嗦計算的情況下考慮常態分布。不過還得記住，沒有哪組數據是百分之百用常態分布描述的。不管對於 SAT 分數，或者蟋蟀的身長， 68–95–99.7 規則都只是大體正確。

年輕女性的身高常態

年輕女性的身高約略是平均數 63.7 英寸、標準差 2.5 英寸的常態分布。要運用 68 – 95 – 99.7 規則，首先得畫一個常態曲線的圖。圖 13.9 說明了這個規則用在女性的身高上會是什麼情況。

任何常態分布都有一半的觀測值在平均數之上，所以年輕女性中有一半高於 63.7 英寸。

-----廣告，請繼續往下閱讀-----

任何常態分布的中間68%觀測值，會在距平均數一個標準差的範圍內。而這 68 %中的一半，即 34 %，會在平均數之上。所以有 34 %的年輕女性，身高在 63.7 英寸及 66.2 英寸之間。把身高不到 63.7 英寸的 50% 女性也加上去，可以得知總共有84%的年輕女性身高不到 66.2 英寸。所以推知超過 66.2 英寸的人占 16%。

任何常態分布的中間 95% 的值，在距平均數兩個標準差範圍內。這裡的兩個標準差是 5 英寸，所以年輕女性身高的中間 95% 是在 58.7（= 63.7 − 5）和 68.7（= 63.7 + 5）英寸之間。