Loading [MathJax]/extensions/tex2jax.js

0

0
0

文字

分享

0
0
0

資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震

陳妤寧
・2016/05/24 ・4572字 ・閱讀時間約 9 分鐘 ・SR值 550 ・八年級

-----廣告,請繼續往下閱讀-----

採訪編輯 / 陳妤寧

 

將 Big Data 回歸資料科學的本質,除了資訊工程之外,「統計」這個學門在 Big Data 時代能夠如何讓「數據」發揮更大價值?而在相信數據的無所不能之前,如何檢驗資料的可靠性、確定資料能解決的問題極限、甚至判斷結果背後的統計方式?本篇專訪邀請到清華統計所博士後研究員謝宗震,同時也是以推廣資料科學為目標的社會企業「DSP 智庫驅動」的知識長,分享如何透過資料科學解決真實世界的問題。

隨著時代演進的資料科學-大、雜、快、疑

「數據是人類活動的歷史記錄,透過資料科學『以古鑑今』是追求進步的捷徑。」謝宗震說,
一般來說,談及現今的資料科學或是 Big Data 都會提到 3 + 1 個特性:大、快、雜、疑。

隨著科技的發展,人類活動的軌跡越來越能夠被詳實記錄,譬如人們瀏覽電子新聞、購物商城的軌跡,人與人在社群網站的互動過程,人在操作汽車、電視、冷氣的習慣…等等。這種進步就好比是從一幅自畫像進步到一張照片,再到一部電影,現在甚至已經發展到近乎24小時不間段的實境節目。在人類活動被無時無刻記錄的同時,資料的量級爆炸性的成長,有一說:「現今世上的資料等於一個人每天24小時不停觀看超過2千億部的2小時HD電影,必須花上4700萬年才能看完。」

-----廣告,請繼續往下閱讀-----

「Data Mining 是解析數據的方法,他的精神是連結不同來源的資料並挖掘價值,而不只是單一資料表分析而已。」謝宗震說,資料採礦(Data Mining)打從 1980 年代就伴隨高科技產業降生,台灣民間也在大約十五年前開始出現 Data Mining 的相關課程和協會,發展的一大關鍵在於資料倉儲的發展,使得「存取不同來源的大量資料」變得越來越便利。

以量販店的資料為例,就包括了產品庫存、發票銷售資料、產品擺放的順序、促銷資料、員工出勤資料……各式各樣的資料可能都儲存在不同的部門、不同的資料庫。除此之外,網路上各種影片、音樂、等難以量化或沒有標準欄位的資料的出現,也讓資料儲存的類型變得更為複雜。

在資料存儲的「巨量性」與「多樣性」之外,因應電子商務時代對「時效性」的要求,運算速度的需求也隨之提高。以著名的電話辨識 app「Whoscall」為例,為了協助使用者在接起電話之前,判別陌生來電是否為其他使用者回報的詐騙或騷擾電話,「Whoscall」必須在短短幾秒內告訴使用者這通電話該不該接。「資料越來越龐大,要讓使用者能在短時間內獲得反饋,提昇電腦計算能力和簡化演算方式就成為重要的發展方向。而後者正是統計人在資料科學中的任務。」謝宗震說。

除了「大」、「雜」、「快」,大數據近年還出現了第四個特性-「疑」,也就是指資料的「可靠性」問題。如果無法先檢驗資料的品質和來源,一味的把搜集到的數據趕快送進運算模型,「那麼只是『Garbage in, garbage out』。」舉例來說,當我們希望利用社群網站上的討論資料來分析選舉情勢,例如哪個候選人的討論度較高、討論是以正評還是負評居多。在此之前應該先關心網路上的討論者都是哪裡來的?如果這些討論者根本不隸屬於這個選區、甚至這些討論其實源出於機器人、殭屍,那麼這些「品質不佳」的資料就無法有力計算出具有參考價值的候選人支持度。

-----廣告,請繼續往下閱讀-----

那麼,具體來拆解資料科學,可以分成哪些工作階段和角色?

資料科學的生命循環,交給四種角色通力合作

資料科學的生命循環,可對應到四種不同的角色。「資料產品經理人」負責將真實世界的問題轉換成資料可以解決的問題,通常是該問題領域的專業人士;「資料工程師」負責蒐集、整理、清理資料,通常是具備程式技術能力的工程師;「資料分析師」負責資料建模和分析,通常由擅長找出資料關聯的統計人擔當;「資料視覺化設計師」的任務則是要將報表變得簡明易懂。

「每種角色各有專精,但只有整合訓練、了解彼此的領域重點為何,才能形成完整的資料科學家的視野或團隊。」正因如此,由 Code for Tomorrow 孵化出來的社會企業「DSP 智庫驅動」,在設計資料科學的課程也更注重讓不同角色的「資料人」能夠在此學習和資料產品經理人、資料工程師、統計分析師、資料視覺化設計師合作,形成團隊共同進行專案實戰,幫助非營利組織和企業激發資料價值。

謝宗震以自己參加過的 Code for Healthcare 工作坊為例,實際說明資料科學的生命循環。小組成員包含:氣爆受災戶、救災人員、醫護人員、資料科學家、視覺設計師。小組研究的主題為高雄八一氣爆意外後的救護資訊,重大災難發生的當下,第一線消防人員如何得知高高屏地區醫院的急診室承載量,進一步決定如何把傷患送往哪間醫院?決定設計問題的第一步後,小組蒐集高高屏地區資料庫中每五分鐘更新的急診室資料,包括外科醫生人數、病患人數、傷患嚴重程度、呼吸器和各種設備的數量……。當欄位都蒐集好,接下來才是真正試算:如果意外現場有三十個人受傷,那麼最佳路徑下應該優先送到哪間醫院?如果高高屏地區滿載,是否應向北去找台南醫院協助?有些醫院雖然略遠,但是否在急診室不用排隊?當運算模型完備,最後可由資工專業寫成 app,提供給救護單位使用。

-----廣告,請繼續往下閱讀-----

不過在踏入分析之前,謝宗震認為先練習「資料思考」更為重要,所謂先認識再交往,面對資料也要先多做評估,後續展開的分析才會更順利。

先了解資料的「極限」,才能展開有效分析

在建立模型、著手分析之前,如何蒐集、整理資料有著同等的重要性。手上資料能提供的訊息若不足以解答問題,那麼貿然展開分析便是緣木求魚。謝宗震說:「在 DSP 智庫驅動的課程中,我們會拿 YouBike 的公開資料當做上課教材,有些學員希望分析每個使用者從 A 點到 B 點會花多少時間,進一步替週遭店家推播廣告。然而 YouBike 提供的資料僅有『每個站點在每五分鐘有幾台車被騎走』,而沒有詳細的路線資訊。因此除非回過頭去徵求開放更多更精細的資料,目標問題是無法獲得解答的。」

謝宗震分享自身經驗:「在上課的時候,我們遇過最多學員的動機和問題是:『我不知道公司的資料要怎麼用,但資料科學很紅,我應該來進修。』所以我們將課程稍作微調,讓學員先練習『資料思考 Data Thinking』、了解資料能解決問題的極限在哪裡。舉例來說,如果我是一家希望分析手上銷售資料的速食店,但萬一銷售資料沒有記錄漢堡的類別,我就不可能找出人氣漢堡!」

當大數據時代幾乎能「海納百川」地計算海量的資料,傳統的「抽樣」方法以及必須隨之處理的「抽樣誤差」問題,是否就能夠一概免除?「很多書都會說,既然 Big Data 能蒐集並運算所有的資料的情況下,就能免除抽樣誤差的煩惱,但資料只是真實世界的片段,不可能透過資料完整反應真實世界。」謝宗震跳出大數據本位,直率地分析數據的極限。「就以台北市選舉的網路意見調查為例,可能很多發言者根本不設籍在台北市;而很多只是『潛水』閱讀而沒有公開發言的人,也不會形成資料;更甚者,有很多人可能連上網的能力都尚不具備!」

-----廣告,請繼續往下閱讀-----

統計在做什麼?分析建模讓資料分析結果更精緻

目前資料科學領域中,統計人的身影遠少於資工人,謝宗震怎麼看待統計人在資料科學中的價值?他認為關鍵在於演算模型的建立,這個模型可用每個輸入值(x,Input)對應輸出值(f(x), Output)的函數關係來理解,資料被丟進此黑盒子進行運算,最後得出分析結果,而黑盒子中的方程式或各種演算法,就是統計建模的核心。「如果單純使用平均數或簡易的算法當然也能做出結果,但精緻度是不同的。」而分析建模正是統計的優勢所在。

為了要得到品質好、有代表性的資料,整理資料的過程也需要統計建模的幫忙,例如當問卷欄位上出現缺漏值,「有些人就是不喜歡填身高、體重、和心得,但如果他們有填寫其他題項,就能運用建模來反推可能的缺漏答案。」種種功夫,都是為了在正式展開分析之前,能夠確保資料品質能具有真正的參考價值。

除了計算資料,統計也能幫助我們更好地判讀資料。因為同樣一筆資料,透過不同的統計方法,可能得出天差地遠的結果,進而影響我們對於數據分析的認知立場。

統計在做什麼?洞察數據背後玄機,不同計算方式兩樣情

一般人看到充滿說服力的統計數字時,很容易忽視統計過程中所使用的方法,而直接相信算出來的「結果」。以「貧富差距」報告為例,比較「最富和最貧的年收入差距」是很有感的指標,但是倍數怎麼算,背後其實大有不同的算法。在不同的計算方式之下,一模一樣的原始數據,可能得出「6.08倍」和「99.39倍」這兩種相距甚大的年收入差距。

-----廣告,請繼續往下閱讀-----

「要計算『最富有的那群人』和『最貧窮的那群人』的差距,可以依每戶綜所稅申報所得分成五等分,擷取最富和最貧的 20%,再將兩群的平均值相除得6.08。另一方面,也可以將人們分成二十等分,以最富最貧的5%計算得99.39倍,而美國、日本、澳洲以及國際組織如CIA、OECD的計算方式則為 10%。無論如何,當取樣的比例分別是 5%、10%或 20% 的時候,就會出現不同的統計結果。人們可以選出對自己最有利的計算方式。」

要更精準、更客觀的研究貧富差距,其實不能只看一兩個指標就下判斷。「較好的作法是連續比較 5%、10%、20% 一直到 50% 的差異為何,才能看的出演變趨勢。例如若以 20% 為標準時今年相對於去年的貧富差距變小、10% 時貧富差距上升,那麼代表中等富有和中等貧窮的群族差距拉近了、然而極端富有和極端貧窮的人反而差距更大了。」在貧富差距這個議題中,貧和富能分成更多種,進行更細緻的討論。而對不熟悉統計的一般人來說,至少可以學習注意兩件事:一、伴隨數字後面的「單位」是什麼?二、同一筆資料存在著不同的算法,在相信結果之前,應先留心它是如何被算出來的,而不是讓自己被數字牽著鼻子走。

總之,「資料是真實世界的一部分,指標是資料的一部分,一種指標只是反應資料的某一種面向,並不代表全部,唯有清楚知道指標的特質才能貼近真實。」

談了這麼多統計人的身懷絕技,但在 Big Data 時代,統計人會遇到什麼挑戰、應該如何自我調適才能充分大展身手?

-----廣告,請繼續往下閱讀-----

面對 Big Data 時代,統計人要如何讓自己發揮價值?

「統計這門學科在每個時代都可以『玩資料』,有問題、有資料,就能建立模型分析問題。」謝宗震說,然而現在的 Big Data 時代,統計人難以好整以暇地等客戶捧上問題和資料再著手分析,資料「反客為主」,許多時候連客戶也不一定知道他想問的問題是什麼,統計人必須更主動參與第一線,甚至規劃如何蒐集資料,而非面對已經固定欄位的資料庫一籌莫展。如果統計人無法習慣處理非結構化的第一線資料,就如同打不開冰箱的廚師,拿不到食材,就更別談烹調出美味的食物了。

以電子商務領域為例,商家充滿各式各樣的疑問:要如何促進買氣?要推播給會員什麼廣告?廣告應該放在網站中的那個位置效果會最好?統計人應當參與更多第一線規劃蒐集資料的細節,然而現在設計網站與資料欄位的人卻少有統計學家的蹤影。「促銷應該統計過去一周賣的最好的前十名商品、還是消費者最想買的前十名商品?要計算廣告成效,應該以點擊率、還是最後轉換的購買率或購買金額為標準?」要得出更細緻的答案,就需要統計人更大程度的參與。若能從中改善使用者體驗,也就能搜集到更好的資料、做出更好的解讀。讓大數據不只是躺在資料庫中,而能走入真實世界,解決更多的真實問題。

(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)

責任編輯:鄭國威

-----廣告,請繼續往下閱讀-----

大數據專題報導系列:

  1. 運用海量資料讓機器「自學」,電腦將成為更好的決策代理人-專訪台大資工教授林守德
  2. 不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉
  3. 從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩
  4. 提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠
-----廣告,請繼續往下閱讀-----
文章難易度
陳妤寧
38 篇文章 ・ 1 位粉絲
熱愛將知識拆解為簡單易懂的文字,喜歡把一件事的正反觀點都挖出來思考,希望用社會科學的視角創造更宏觀的視野。

0

1
1

文字

分享

0
1
1
伺服器過熱危機!液冷與 3D VC 技術如何拯救高效運算?
鳥苷三磷酸 (PanSci Promo)_96
・2025/04/11 ・3194字 ・閱讀時間約 6 分鐘

-----廣告,請繼續往下閱讀-----

本文與 高柏科技 合作,泛科學企劃執行。

當我們談論能擊敗輝達(NVIDIA)、Google、微軟,甚至是 Meta 的存在,究竟是什麼?答案或許並非更強大的 AI,也不是更高速的晶片,而是你看不見、卻能瞬間讓伺服器崩潰的「熱」。

 2024 年底至 2025 年初,搭載 Blackwell 晶片的輝達伺服器接連遭遇過熱危機,傳聞 Meta、Google、微軟的訂單也因此受到影響。儘管輝達已經透過調整機櫃設計來解決問題,但這場「科技 vs. 熱」的對決,才剛剛開始。 

不僅僅是輝達,微軟甚至嘗試將伺服器完全埋入海水中,希望藉由洋流降溫;而更激進的做法,則是直接將伺服器浸泡在冷卻液中,來一場「浸沒式冷卻」的實驗。

-----廣告,請繼續往下閱讀-----

但這些方法真的有效嗎?安全嗎?從大型數據中心到你手上的手機,散熱已經成為科技業最棘手的難題。本文將帶各位跟著全球散熱專家 高柏科技,一同看看如何用科學破解這場高溫危機!

運算=發熱?為何電腦必然會發熱?

為什麼電腦在運算時溫度會升高呢? 圖/unsplash

這並非新問題,1961年物理學家蘭道爾在任職於IBM時,就提出了「蘭道爾原理」(Landauer Principle),他根據熱力學提出,當進行計算或訊息處理時,即便是理論上最有效率的電腦,還是會產生某些形式的能量損耗。因為在計算時只要有訊息流失,系統的熵就會上升,而隨著熵的增加,也會產生熱能。

換句話說,當計算是不可逆的時候,就像產品無法回收再利用,而是進到垃圾場燒掉一樣,會產生許多廢熱。

要解決問題,得用科學方法。在一個系統中,我們通常以「熱設計功耗」(TDP,Thermal Design Power)來衡量電子元件在正常運行條件下產生的熱量。一般來說,TDP 指的是一個處理器或晶片運作時可能會產生的最大熱量,通常以瓦特(W)為單位。也就是說,TDP 應該作為這個系統散熱的最低標準。每個廠商都會公布自家產品的 TDP,例如AMD的CPU 9950X,TDP是170W,GeForce RTX 5090則高達575W,伺服器用的晶片,則可能動輒千瓦以上。

-----廣告,請繼續往下閱讀-----

散熱不僅是AI伺服器的問題,電動車、儲能設備、甚至低軌衛星,都需要高效散熱技術,這正是高柏科技的專長。

「導熱介面材料(TIM)」:提升散熱效率的關鍵角色

在電腦世界裡,散熱的關鍵就是把熱量「交給」導熱效率高的材料,而這個角色通常是金屬散熱片。但散熱並不是簡單地把金屬片貼在晶片上就能搞定。

現實中,晶片表面和散熱片之間並不會完美貼合,表面多少會有細微間隙,而這些縫隙如果藏了空氣,就會變成「隔熱層」,阻礙熱傳導。

為了解決這個問題,需要一種關鍵材料,導熱介面材料(TIM,Thermal Interface Material)。它的任務就是填補這些縫隙,讓熱可以更加順暢傳遞出去。可以把TIM想像成散熱高速公路的「匝道」,即使主線有再多車道,如果匝道堵住了,車流還是無法順利進入高速公路。同樣地,如果 TIM 的導熱效果不好,熱量就會卡在晶片與散熱片之間,導致散熱效率下降。

-----廣告,請繼續往下閱讀-----

那麼,要怎麼提升 TIM 的效能呢?很直覺的做法是增加導熱金屬粉的比例。目前最常見且穩定的選擇是氧化鋅或氧化鋁,若要更高效的散熱材料,則有氮化鋁、六方氮化硼、立方氮化硼等更高級的選項。

典型的 TIM 是由兩個成分組成:高導熱粉末(如金屬或陶瓷粉末)與聚合物基質。大部分散熱膏的特點是流動性好,盡可能地貼合表面、填補縫隙。但也因為太「軟」了,受熱受力後容易向外「溢流」。或是造成基質和熱源過分接觸,高分子在高溫下發生熱裂解。這也是為什麼有些導熱膏使用一段時間後,會出現乾裂或表面變硬。

為了解決這個問題,高柏科技推出了凝膠狀的「導熱凝膠」,說是凝膠,但感覺起來更像黏土。保留了可塑性、但更有彈性、更像固體。因此不容易被擠壓成超薄,比較不會熱裂解、壽命也比較長。

OK,到這裡,「匝道」的問題解決了,接下來的問題是:這條散熱高速公路該怎麼設計?你會選擇氣冷、水冷,還是更先進的浸沒式散熱呢?

-----廣告,請繼續往下閱讀-----

液冷與 3D VC 散熱技術:未來高效散熱方案解析

除了風扇之外,目前還有哪些方法可以幫助電腦快速散熱呢?圖/unsplash

傳統的散熱方式是透過風扇帶動空氣經過散熱片來移除熱量,也就是所謂的「氣冷」。但單純的氣冷已經達到散熱效率的極限,因此現在的散熱技術有兩大發展方向。

其中一個方向是液冷,熱量在經過 TIM 後進入水冷頭,水冷頭內的不斷流動的液體能迅速帶走熱量。這種散熱方式效率好,且增加的體積不大。唯一需要注意的是,萬一元件損壞,可能會因為漏液而損害其他元件,且系統的成本較高。如果你對成本有顧慮,可以考慮另一種方案,「3D VC」。

3D VC 的原理很像是氣冷加液冷的結合。3D VC 顧名思義,就是把均溫板層層疊起來,變成3D結構。雖然均溫板長得也像是一塊金屬板,原理其實跟散熱片不太一樣。如果看英文原文的「Vapor Chamber」,直接翻譯是「蒸氣腔室」。

在均溫板中,會放入容易汽化的工作流體,當流體在熱源處吸收熱量後就會汽化,當熱量被帶走,汽化的流體會被冷卻成液體並回流。這種利用液體、氣體兩種不同狀態進行熱交換的方法,最大的特點是:導熱速度甚至比金屬的熱傳導還要更快、熱量的分配也更均勻,不會有熱都聚集在入口(熱源處)的情況,能更有效降溫。

-----廣告,請繼續往下閱讀-----

整個 3DVC 的設計,是包含垂直的熱導管和水平均溫板的 3D 結構。熱導管和均溫板都是採用氣、液兩向轉換的方式傳遞熱量。導熱管是電梯,能快速把散熱工作帶到每一層。均溫板再接手將所有熱量消化掉。最後當空氣通過 3DVC,就能用最高的效率帶走熱量。3DVC 跟水冷最大的差異是,工作流體移動的過程經過設計,因此不用插電,成本僅有水冷的十分之一。但相對的,因為是被動式散熱,其散熱模組的體積相對水冷會更大。

從 TIM 到 3D VC,高柏科技一直致力於不斷創新,並多次獲得國際專利。為了進一步提升 3D VC 的散熱效率並縮小模組體積,高柏科技開發了6項專利技術,涵蓋系統設計、材料改良及結構技術等方面。經過設計強化後,均溫板不僅保有高導熱性,還增強了結構強度,顯著提升均溫速度及耐用性。

隨著散熱技術不斷進步,有人提出將整個晶片組或伺服器浸泡在冷卻液中的「浸沒式冷卻」技術,將主機板和零件完全泡在不導電的特殊液體中,許多冷卻液會選擇沸點較低的物質,因此就像均溫板一樣,可以透過汽化來吸收掉大量的熱,形成泡泡向上浮,達到快速散熱的效果。

然而,因為水會導電,因此替代方案之一是氟化物。雖然效率差了一些,但至少可以用。然而氟化物的生產或廢棄時,很容易產生全氟/多氟烷基物質 PFAS,這是一種永久污染物,會對環境產生長時間影響。目前各家廠商都還在試驗新的冷卻液,例如礦物油、其他油品,又或是在既有的液體中添加奈米碳管等特殊材質。

-----廣告,請繼續往下閱讀-----

另外,把整個主機都泡在液體裡面的散熱邏輯也與原本的方式大相逕庭。如何重新設計液體對流的路線、如何讓氣泡可以順利上浮、甚至是研究氣泡的出現會不會影響元件壽命等等,都還需要時間來驗證。

高柏科技目前已將自家產品提供給各大廠商進行相容性驗證,相信很快就能推出更強大的散熱模組。

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
224 篇文章 ・ 313 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

2

2
2

文字

分享

2
2
2
買樂透真的可以賺錢?大數法則揭示了賭博的真相!——《統計,讓數字說話》
天下文化_96
・2023/03/05 ・2394字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是大數法則?

期望值的定義是:它是可能結果的一種平均,但在計算平均時,機率大的結果占的比重較高。我們認為期望值也是另一種意義的平均結果,它代表了如果我們重複賭很多次,或者隨機選出很多家戶,實際上會看到的長期平均。這並不只是直覺而已。數學家只要用機率的基本規則就可以證明,用機率模型算出來的期望值,真的就是「長期平均」。這個有名的事實叫做大數法則。

大數法則
大數法則(law of large numbers)是指,如果結果為數值的隨機現象,獨立重複執行許多次,實際觀察到的結果的平均值,會趨近期望值。

大數法則和機率的概念密切相關。在許多次獨立的重複當中,每個可能結果的發生比例會接近它的機率,而所得到的平均結果就會接近期望值。這些事實表達了機遇事件的長期規律性。正如我們在第 17 章提過的,它們是真正的「平均數定律」。

大數法則解釋了:為什麼對個人來說是消遣甚至是會上癮的賭博,對賭場來說卻是生意。經營賭場根本就不是在賭博。大量的賭客贏錢的平均金額會很接近期望值。賭場經營者事先就算好了期望值,並且知道長期下來收入會是多少,所以並不需要在骰子裡灌鉛或者做牌來保證利潤。

賭場只要花精神提供不貴的娛樂和便宜的交通工具,讓顧客川流不息進場就行了。只要賭注夠多,大數法則就能保證賭場賺錢。保險公司的運作也很像賭場,他們賭買了保險的人不會死亡。當然有些人確實會死亡,但是保險公司知道機率,並且依賴大數法則來預測必須給付的平均金額。然後保險公司就把保費訂得夠高,來保證有利潤。

-----廣告,請繼續往下閱讀-----
  • 在樂透彩上做手腳

我們都在電視上看過樂透開獎的實況轉播,看到號碼球上下亂跳,然後由於空氣壓力而隨機彈跳出來。我們可以怎麼樣對開出的號碼做手腳呢? 1980 年的時候,賓州樂透就曾被面帶微笑的主持人以及幾個舞台工作人員動了手腳。

他們把 10 個號碼球中的 8 顆注入油漆,這樣做會把球變重,因此可保證開出中獎號碼的 3 個球必定有那 2 個沒被注入油漆的號碼。然後這些傢伙就下注買該 2 個號碼的所有組合。當 6-6-6 跳出來的時候,他們贏了 120 萬美元。是的,他們後來全被逮到。

歷史上曾有主持人在樂透上做手腳,後來賺了 120 萬美元隨後被逮捕。圖/envatoelements

深入探討期望值

跟機率一樣,期望值和大數法則都值得再花些時間,探討相關的細節問題。

  • 多大的數才算是「大數」?

大數法則是說,當試驗的次數愈來愈多,許多次試驗的實際平均結果會愈來愈接近期望值。可是大數法則並沒有說,究竟需要多少次試驗,才能保證平均結果會接近期望值。這點是要看機結果的變異性決定。

-----廣告,請繼續往下閱讀-----

結果的變異愈大,就需要愈多次的試驗,來確保平均結果接近期望值。機遇遊戲一定要變化大,才能保住賭客的興趣。即使在賭場待上好幾個鐘頭,結果也是無法預測的。結果變異性極大的賭博,例如累積彩金數額極大但極不可能中獎的州彩券,需要極多次的試驗,幾乎要多到不可能的次數,才能保證平均結果會接近期望值。

(州政府可不需要依賴大數法則,因為樂透彩金不像賭場的遊戲,樂透彩用的是同注分彩系統。在同注分彩系統裡面,彩金和賠率是由實際下注金額決定的。舉例來說,各州所辦的樂透彩金,是由全部賭金扣除州政府所得部分之後的剩餘金額來決定的。賭馬的賠率則是決定於賭客對不同馬匹的下注金額。)

雖然大部分的賭博遊戲不及樂透彩這樣多變化,但要回答大數法則的適用範圍,較實際的答案就是:賭場的贏錢金額期望值是正的,而賭場玩的次數夠多,所以可以靠著這個期望值贏錢。你的問題則是,你贏錢金額的期望值是負的。全體賭客玩的次數合起來算的話,當然和賭場一樣多,但因為期望值是負的,所以以賭客整體來看,長期下來一定輸錢。

然而輸的金額並不是由賭客均攤。有些人贏很多錢,有些人輸很多,而有些人沒什麼輸贏。賭博帶給人的誘惑,大部分是來自賭博結果的無法預測。而賭博這門生意仰賴的則是:對賭場來說,結果並非不可測的。

-----廣告,請繼續往下閱讀-----
對賭場來說,贏錢金額期望值為正。圖/envatoelements
  • 有沒有保證贏錢的賭法?

把賭博很當回事的賭客常常遵循某種賭法,這種賭法每次下注的金額,是看前幾次的結果而定。比如說,在賭輪盤時,你可以每次把賭注加倍,直到你贏為止—或者,當然,直到你輸光為止。即使輪盤並沒有記憶,這種玩法仍想利用你有記憶這件事來贏。

你可以用一套賭法來戰勝機率嗎?不行,數學家建立的另一種大數法則說:如果你沒有無窮盡的賭本,那麼只要遊戲的各次試驗(比如輪盤的各次轉動)之間是獨立的,你的平均獲利(期望值)就會是一樣的。抱歉啦!

  • 高科技賭博

全美國有超過 700,000 台吃角子老虎(拉霸)。從前,你丟硬幣進去再拉下把手,轉動三個輪子,每個輪子有 20 個圖案。但早就不是這樣了。現在的機器是電動遊戲,會閃出許多很炫的畫面,而結果是由隨機數字產生器決定的。

機器可以同時接受許多硬幣,有各種讓你眼花撩亂的中獎結果,還可以多台連線,共同累積成連線大獎。賭徒仍在尋找可以贏錢的賭法,但是長期下來,隨機數字產生器會保證賭場有 5% 的利潤。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
所有討論 2
天下文化_96
142 篇文章 ・ 623 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

3
1

文字

分享

0
3
1
我的身高有特別矮嗎?為什麼大多數女性身高都「差不多」!——《統計,讓數字說話》
天下文化_96
・2023/03/04 ・2634字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是常態分布?

圖 13.3 和 13.4 裡的密度曲線,同屬一族特別重要的曲線:常態曲線。圖 13.7 再呈現了兩個常態密度曲線。常態曲線都是對稱、單峰、鐘形的,尾部降得很快,所以我們應該不會看到離群值。由於常態分布是對稱的,所以平均數和中位數都落在曲線的中間位置,而這也是尖峰所在。

常態曲線還有一個特別性質:我們可以用目測方式在曲線上找到它的標準差。對大部分其他的密度曲線,沒有法子這樣做。做法是這樣的。想像你要從山頂開始滑雪,山的形狀和常態曲線一樣。起先,你從山頂出發時,往下滑的角度非常陡:

幸好,在你還沒有直直墜下之前,斜坡就變緩了,你愈往下滑出去,坡度愈平:

曲率(curvature)發生改變的地方,是在平均數兩側、各距平均數一個標準差的位置。圖 13.7 的兩條曲線上都標示出了標準差。你如果用鉛筆沿著常態曲線描,應該可以感受到曲率改變的地方,進而找出標準差。

-----廣告,請繼續往下閱讀-----

常態曲線有個特別的性質是,只要知道平均數及標準差,整條曲線就完全確定了。平均數把曲線的中心定下來,而標準差決定曲線的形狀。變動常態分布的平均數並不會改變曲線的形狀,只會改變曲線在 x 軸上的位置。但是,變動標準差卻會改變常態曲線的形狀,如圖 13.7 所示。標準差較小的分布,散布的範圍比較小,尖峰也比較陡。以下是常態曲線基本性質的總結:

常態密度曲線的特性

常態曲線(normal curve)是對稱的鐘形曲線,具備以下性質:

  • 只要給了平均數和標準差,就可以完全描述特定的常態曲線。
  • 平均數決定分布的中心,這個位置就在曲線的對稱中心。
  • 標準差決定曲線的形狀,標準差是指從平均數到平均數左側或右側的曲率變化點的距離。

為什麼常態分布在統計裡面很重要呢?首先,對於某些真實數據的分布,用常態曲線可以做很好的描述。最早將常態曲線用在數據上的是大數學家高斯(Carl Friedrich Gauss, 1777 – 1855)。

天文學家或測量員仔細重複度量同一個數量時,所得出的量測值會有小誤差,高斯就利用常態曲線來描述這些小誤差。你有時候會看到有人把常態分布叫做「高斯分布」,就是為了紀念高斯。

-----廣告,請繼續往下閱讀-----

十九世紀的大部分時間中,常態曲線曾叫做「誤差曲線」,也就因為常態曲線最早是用來描述量測誤差的分布。後來慢慢發現,有些生物學或心理學上的變數也大致符合常態分布時,「誤差曲線」這個名詞就不再使用了。1889 年,高騰(Francis Galton)率先把這些曲線稱做「常態曲線」。高騰是達爾文的表弟,他開拓了遺傳的統計研究。

常態分布的形狀:鐘形曲線

人類智慧高低的分布,是不是遵循常態分布的「鐘形曲線」?IQ 測驗的分數的確大致符合常態分布,但那是因為測驗分數是根據作答者的答案計算出來的,而計算方式原本就是以常態分布為目標所設計的。要說智慧分布遵循鐘形曲線,前提是:大家都同意 IQ 測驗分數可以直接度量人的智慧。然而許多心理學家都不認為世界上有某種人類特質,可以讓我們稱為「智慧」,並且可以用一個測驗分數度量出來。

當我們從同一母體抽取許多樣本時,諸如樣本比例(當樣本大小很大、而比例的數值中等時)及樣本平均數(當我們從相同母體取出許多樣本時)這類統計量的分布,也可以用常態曲線來描述。我們會在後面的章節進一步細談統計分布。

抽樣調查結果的誤差界限,也常常用常態曲線來算。然而,即使有許多類的數據符合常態分布,仍然有許多是不符合的,比如說,大部分的所得分布是右偏的,因而不是常態分布。非常態的數據就和不平常的人一樣,不僅常見,而且有時比常態的數據還有趣。

-----廣告,請繼續往下閱讀-----

68 – 95 – 99.7 規則

常態曲線有許多,每一個常態曲線都可以用各自的平均數和標準差來描述。所有常態曲線都有許多共同性質,特別要提的是,對常態分布來說,標準差是理所當然的量度單位。這件事實反映在下列規則當中。

68 – 95 – 99.7 規則
在任何常態分布當中,大約有 68% 的觀測值,落在距平均數一個標準差的範圍內。
95% 的觀測值,落在距平均數兩個標準差的範圍內。
99.7% 的觀測值,落在距平均數三個標準差的範圍內。
圖13.8、68–95–99.7規則。圖/《統計,讓數字說話》。

圖 13.8 說明了 68 – 95 – 99.7 規則。記住這三個數字之後,你就可以在不用一直做囉嗦計算的情況下考慮常態分布。不過還得記住,沒有哪組數據是百分之百用常態分布描述的。不管對於 SAT 分數,或者蟋蟀的身長, 68–95–99.7 規則都只是大體正確。

年輕女性的身高常態

年輕女性的身高約略是平均數 63.7 英寸、標準差 2.5 英寸的常態分布。要運用 68 – 95 – 99.7 規則,首先得畫一個常態曲線的圖。圖 13.9 說明了這個規則用在女性的身高上會是什麼情況。

任何常態分布都有一半的觀測值在平均數之上,所以年輕女性中有一半高於 63.7 英寸。

-----廣告,請繼續往下閱讀-----

任何常態分布的中間68%觀測值,會在距平均數一個標準差的範圍內。而這 68 %中的一半,即 34 %,會在平均數之上。所以有 34 %的年輕女性,身高在 63.7 英寸及 66.2 英寸之間。把身高不到 63.7 英寸的 50% 女性也加上去,可以得知總共有84%的年輕女性身高不到 66.2 英寸。所以推知超過 66.2 英寸的人占 16%。

任何常態分布的中間 95% 的值,在距平均數兩個標準差範圍內。這裡的兩個標準差是 5 英寸,所以年輕女性身高的中間 95% 是在 58.7(= 63.7 − 5)和 68.7(= 63.7 + 5)英寸之間。

另外 5% 女性的身高,就超出 58.7 到 68.7 英寸的範圍之外。因為常態分布是對稱的,這其中有一半的女性是在矮的那一頭。年輕女性中最矮的 2.5% ,身高不到 58.7 英寸(149 公分)。

任何常態分布中幾乎所有(99.7%)的值,在距平均數三個標準差的範圍內,所以幾乎所有年輕女性的身高,都在 56.2 及 71.2 英寸之間。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
天下文化_96
142 篇文章 ・ 623 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。