0

0
0

文字

分享

0
0
0

資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震

陳妤寧
・2016/05/24 ・4572字 ・閱讀時間約 9 分鐘 ・SR值 550 ・八年級

採訪編輯 / 陳妤寧

 

將 Big Data 回歸資料科學的本質,除了資訊工程之外,「統計」這個學門在 Big Data 時代能夠如何讓「數據」發揮更大價值?而在相信數據的無所不能之前,如何檢驗資料的可靠性、確定資料能解決的問題極限、甚至判斷結果背後的統計方式?本篇專訪邀請到清華統計所博士後研究員謝宗震,同時也是以推廣資料科學為目標的社會企業「DSP 智庫驅動」的知識長,分享如何透過資料科學解決真實世界的問題。

隨著時代演進的資料科學-大、雜、快、疑

「數據是人類活動的歷史記錄,透過資料科學『以古鑑今』是追求進步的捷徑。」謝宗震說,
一般來說,談及現今的資料科學或是 Big Data 都會提到 3 + 1 個特性:大、快、雜、疑。

隨著科技的發展,人類活動的軌跡越來越能夠被詳實記錄,譬如人們瀏覽電子新聞、購物商城的軌跡,人與人在社群網站的互動過程,人在操作汽車、電視、冷氣的習慣…等等。這種進步就好比是從一幅自畫像進步到一張照片,再到一部電影,現在甚至已經發展到近乎24小時不間段的實境節目。在人類活動被無時無刻記錄的同時,資料的量級爆炸性的成長,有一說:「現今世上的資料等於一個人每天24小時不停觀看超過2千億部的2小時HD電影,必須花上4700萬年才能看完。」

「Data Mining 是解析數據的方法,他的精神是連結不同來源的資料並挖掘價值,而不只是單一資料表分析而已。」謝宗震說,資料採礦(Data Mining)打從 1980 年代就伴隨高科技產業降生,台灣民間也在大約十五年前開始出現 Data Mining 的相關課程和協會,發展的一大關鍵在於資料倉儲的發展,使得「存取不同來源的大量資料」變得越來越便利。

以量販店的資料為例,就包括了產品庫存、發票銷售資料、產品擺放的順序、促銷資料、員工出勤資料……各式各樣的資料可能都儲存在不同的部門、不同的資料庫。除此之外,網路上各種影片、音樂、等難以量化或沒有標準欄位的資料的出現,也讓資料儲存的類型變得更為複雜。

在資料存儲的「巨量性」與「多樣性」之外,因應電子商務時代對「時效性」的要求,運算速度的需求也隨之提高。以著名的電話辨識 app「Whoscall」為例,為了協助使用者在接起電話之前,判別陌生來電是否為其他使用者回報的詐騙或騷擾電話,「Whoscall」必須在短短幾秒內告訴使用者這通電話該不該接。「資料越來越龐大,要讓使用者能在短時間內獲得反饋,提昇電腦計算能力和簡化演算方式就成為重要的發展方向。而後者正是統計人在資料科學中的任務。」謝宗震說。

除了「大」、「雜」、「快」,大數據近年還出現了第四個特性-「疑」,也就是指資料的「可靠性」問題。如果無法先檢驗資料的品質和來源,一味的把搜集到的數據趕快送進運算模型,「那麼只是『Garbage in, garbage out』。」舉例來說,當我們希望利用社群網站上的討論資料來分析選舉情勢,例如哪個候選人的討論度較高、討論是以正評還是負評居多。在此之前應該先關心網路上的討論者都是哪裡來的?如果這些討論者根本不隸屬於這個選區、甚至這些討論其實源出於機器人、殭屍,那麼這些「品質不佳」的資料就無法有力計算出具有參考價值的候選人支持度。

那麼,具體來拆解資料科學,可以分成哪些工作階段和角色?

資料科學的生命循環,交給四種角色通力合作

資料科學的生命循環,可對應到四種不同的角色。「資料產品經理人」負責將真實世界的問題轉換成資料可以解決的問題,通常是該問題領域的專業人士;「資料工程師」負責蒐集、整理、清理資料,通常是具備程式技術能力的工程師;「資料分析師」負責資料建模和分析,通常由擅長找出資料關聯的統計人擔當;「資料視覺化設計師」的任務則是要將報表變得簡明易懂。

「每種角色各有專精,但只有整合訓練、了解彼此的領域重點為何,才能形成完整的資料科學家的視野或團隊。」正因如此,由 Code for Tomorrow 孵化出來的社會企業「DSP 智庫驅動」,在設計資料科學的課程也更注重讓不同角色的「資料人」能夠在此學習和資料產品經理人、資料工程師、統計分析師、資料視覺化設計師合作,形成團隊共同進行專案實戰,幫助非營利組織和企業激發資料價值。

謝宗震以自己參加過的 Code for Healthcare 工作坊為例,實際說明資料科學的生命循環。小組成員包含:氣爆受災戶、救災人員、醫護人員、資料科學家、視覺設計師。小組研究的主題為高雄八一氣爆意外後的救護資訊,重大災難發生的當下,第一線消防人員如何得知高高屏地區醫院的急診室承載量,進一步決定如何把傷患送往哪間醫院?決定設計問題的第一步後,小組蒐集高高屏地區資料庫中每五分鐘更新的急診室資料,包括外科醫生人數、病患人數、傷患嚴重程度、呼吸器和各種設備的數量……。當欄位都蒐集好,接下來才是真正試算:如果意外現場有三十個人受傷,那麼最佳路徑下應該優先送到哪間醫院?如果高高屏地區滿載,是否應向北去找台南醫院協助?有些醫院雖然略遠,但是否在急診室不用排隊?當運算模型完備,最後可由資工專業寫成 app,提供給救護單位使用。

不過在踏入分析之前,謝宗震認為先練習「資料思考」更為重要,所謂先認識再交往,面對資料也要先多做評估,後續展開的分析才會更順利。

先了解資料的「極限」,才能展開有效分析

在建立模型、著手分析之前,如何蒐集、整理資料有著同等的重要性。手上資料能提供的訊息若不足以解答問題,那麼貿然展開分析便是緣木求魚。謝宗震說:「在 DSP 智庫驅動的課程中,我們會拿 YouBike 的公開資料當做上課教材,有些學員希望分析每個使用者從 A 點到 B 點會花多少時間,進一步替週遭店家推播廣告。然而 YouBike 提供的資料僅有『每個站點在每五分鐘有幾台車被騎走』,而沒有詳細的路線資訊。因此除非回過頭去徵求開放更多更精細的資料,目標問題是無法獲得解答的。」

謝宗震分享自身經驗:「在上課的時候,我們遇過最多學員的動機和問題是:『我不知道公司的資料要怎麼用,但資料科學很紅,我應該來進修。』所以我們將課程稍作微調,讓學員先練習『資料思考 Data Thinking』、了解資料能解決問題的極限在哪裡。舉例來說,如果我是一家希望分析手上銷售資料的速食店,但萬一銷售資料沒有記錄漢堡的類別,我就不可能找出人氣漢堡!」

當大數據時代幾乎能「海納百川」地計算海量的資料,傳統的「抽樣」方法以及必須隨之處理的「抽樣誤差」問題,是否就能夠一概免除?「很多書都會說,既然 Big Data 能蒐集並運算所有的資料的情況下,就能免除抽樣誤差的煩惱,但資料只是真實世界的片段,不可能透過資料完整反應真實世界。」謝宗震跳出大數據本位,直率地分析數據的極限。「就以台北市選舉的網路意見調查為例,可能很多發言者根本不設籍在台北市;而很多只是『潛水』閱讀而沒有公開發言的人,也不會形成資料;更甚者,有很多人可能連上網的能力都尚不具備!」

統計在做什麼?分析建模讓資料分析結果更精緻

目前資料科學領域中,統計人的身影遠少於資工人,謝宗震怎麼看待統計人在資料科學中的價值?他認為關鍵在於演算模型的建立,這個模型可用每個輸入值(x,Input)對應輸出值(f(x), Output)的函數關係來理解,資料被丟進此黑盒子進行運算,最後得出分析結果,而黑盒子中的方程式或各種演算法,就是統計建模的核心。「如果單純使用平均數或簡易的算法當然也能做出結果,但精緻度是不同的。」而分析建模正是統計的優勢所在。

為了要得到品質好、有代表性的資料,整理資料的過程也需要統計建模的幫忙,例如當問卷欄位上出現缺漏值,「有些人就是不喜歡填身高、體重、和心得,但如果他們有填寫其他題項,就能運用建模來反推可能的缺漏答案。」種種功夫,都是為了在正式展開分析之前,能夠確保資料品質能具有真正的參考價值。

除了計算資料,統計也能幫助我們更好地判讀資料。因為同樣一筆資料,透過不同的統計方法,可能得出天差地遠的結果,進而影響我們對於數據分析的認知立場。

統計在做什麼?洞察數據背後玄機,不同計算方式兩樣情

一般人看到充滿說服力的統計數字時,很容易忽視統計過程中所使用的方法,而直接相信算出來的「結果」。以「貧富差距」報告為例,比較「最富和最貧的年收入差距」是很有感的指標,但是倍數怎麼算,背後其實大有不同的算法。在不同的計算方式之下,一模一樣的原始數據,可能得出「6.08倍」和「99.39倍」這兩種相距甚大的年收入差距。

「要計算『最富有的那群人』和『最貧窮的那群人』的差距,可以依每戶綜所稅申報所得分成五等分,擷取最富和最貧的 20%,再將兩群的平均值相除得6.08。另一方面,也可以將人們分成二十等分,以最富最貧的5%計算得99.39倍,而美國、日本、澳洲以及國際組織如CIA、OECD的計算方式則為 10%。無論如何,當取樣的比例分別是 5%、10%或 20% 的時候,就會出現不同的統計結果。人們可以選出對自己最有利的計算方式。」

要更精準、更客觀的研究貧富差距,其實不能只看一兩個指標就下判斷。「較好的作法是連續比較 5%、10%、20% 一直到 50% 的差異為何,才能看的出演變趨勢。例如若以 20% 為標準時今年相對於去年的貧富差距變小、10% 時貧富差距上升,那麼代表中等富有和中等貧窮的群族差距拉近了、然而極端富有和極端貧窮的人反而差距更大了。」在貧富差距這個議題中,貧和富能分成更多種,進行更細緻的討論。而對不熟悉統計的一般人來說,至少可以學習注意兩件事:一、伴隨數字後面的「單位」是什麼?二、同一筆資料存在著不同的算法,在相信結果之前,應先留心它是如何被算出來的,而不是讓自己被數字牽著鼻子走。

總之,「資料是真實世界的一部分,指標是資料的一部分,一種指標只是反應資料的某一種面向,並不代表全部,唯有清楚知道指標的特質才能貼近真實。」

談了這麼多統計人的身懷絕技,但在 Big Data 時代,統計人會遇到什麼挑戰、應該如何自我調適才能充分大展身手?

面對 Big Data 時代,統計人要如何讓自己發揮價值?

「統計這門學科在每個時代都可以『玩資料』,有問題、有資料,就能建立模型分析問題。」謝宗震說,然而現在的 Big Data 時代,統計人難以好整以暇地等客戶捧上問題和資料再著手分析,資料「反客為主」,許多時候連客戶也不一定知道他想問的問題是什麼,統計人必須更主動參與第一線,甚至規劃如何蒐集資料,而非面對已經固定欄位的資料庫一籌莫展。如果統計人無法習慣處理非結構化的第一線資料,就如同打不開冰箱的廚師,拿不到食材,就更別談烹調出美味的食物了。

以電子商務領域為例,商家充滿各式各樣的疑問:要如何促進買氣?要推播給會員什麼廣告?廣告應該放在網站中的那個位置效果會最好?統計人應當參與更多第一線規劃蒐集資料的細節,然而現在設計網站與資料欄位的人卻少有統計學家的蹤影。「促銷應該統計過去一周賣的最好的前十名商品、還是消費者最想買的前十名商品?要計算廣告成效,應該以點擊率、還是最後轉換的購買率或購買金額為標準?」要得出更細緻的答案,就需要統計人更大程度的參與。若能從中改善使用者體驗,也就能搜集到更好的資料、做出更好的解讀。讓大數據不只是躺在資料庫中,而能走入真實世界,解決更多的真實問題。

(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)

責任編輯:鄭國威

大數據專題報導系列:

  1. 運用海量資料讓機器「自學」,電腦將成為更好的決策代理人-專訪台大資工教授林守德
  2. 不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉
  3. 從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩
  4. 提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠

數感宇宙探索課程,現正募資中!

文章難易度
陳妤寧
38 篇文章 ・ 0 位粉絲
熱愛將知識拆解為簡單易懂的文字,喜歡把一件事的正反觀點都挖出來思考,希望用社會科學的視角創造更宏觀的視野。


0

3
0

文字

分享

0
3
0

調香師的秘密:「糞臭素」挑起你骯髒的慾望

胡中行_96
・2022/05/16 ・2039字 ・閱讀時間約 4 分鐘

倫敦高級區梅費爾(Mayfair)的聯排透天洋房裡,他與屋主近身互動。六呎高,湛藍的雙眸,古銅的肌膚,寬闊的下顎,銀髮一絲不苟地貼齊,以及一縷迷人的香氣:肉桂、皮革和不可言喻的香味,他確定迎面襲來的深刻,源自另一個時空。

梅菲爾位在倫敦西區,它是世界上最昂貴的地區之一。圖/Wikipedia

「當你嗅聞,你是用腦在聞。最原始的,處理記憶和情緒的部位。」
屋主解釋:「若芸芸眾生試圖尋覓自我的氣味,那我正在打造專屬你的身份。」

關於香水的秘密

一場訪談,讓男性時尚雜誌《GQ》的作家 Michael Paterniti 化身高級訂製香水的顧客,而江湖人稱「香水界情色男優」(the Pornographer of Perfume)的屋主 Roja Dove,正優雅地介紹混香的秘密。「我使用『糞臭素』,一種帶有糞便氣息的醜陋分子。男女性器皆與肛門比鄰,底蘊裡一丁點的『糞臭素』,便能喚起骯髒的慾望。」[1]

Roja Dove 是一位英國調香師。圖/Wikipedia

糞臭素是怎麼來的?

來到住處之前,兩人在麗池飯店(Ritz Hotel)旁的沃爾斯利餐廳(the Wolseley)用過午餐。此時他們的消化系統正將蛋白質,分解成胺基酸(amino acid)。接著,腸道內的菌落會先進行「去胺作用」(deamination),用氫去代換胺基。於是,有一種叫做「色胺酸」(tryptophan)的胺基酸,就變成「吲哚-3-乙酸」(indole-3-acetic acid,簡稱「IAA」)。

再來,乳酸桿菌(Lactobacillus)、梭菌(Clostridium)和類桿菌(Bacteroides),透過「去羧作用」(decarboxylation;羧,注音ㄗㄨㄟ)把 IAA 中的羧基(carboxylic acid group)換成氫,人體內的「糞臭素」(skatole;即3-methylindole)就誕生了[2][3][4]

Roja Dove 的調香手法

在正式調香之前,Roja Dove 會提供約莫 200 張的試香紙,讓訂製高級香水的顧客挑選最能觸發當下感覺,並連結過往回憶的幾種氣味。Roja Dove 將以它們為發想的根據,把原料輕拍到試香紙上,再把試香紙與一只金屬小風車連結。當小風車運轉,微風迎面吹來,他便能感受這些原料的效果。

當然,調香運用的糞臭素不是靠「人體製造」,而是在實驗室或工廠裡「人工合成」。1883 年德國化學家費雪(Hermann Emil Fischer, 1852-1919)發明了「費雪吲哚合成」(Fischer Indole Synthesis):一種苯肼(phenylhydrazine)和醛(aldehyde)或酮(ketone),透過酸觸媒(acid catalyst)催化產生的作用。一般罐裝糞臭素,便是這麼來的[2][5]

從溝通、聞香、構想、嘗試、製作到完成需要耗時一到二年。圖/Pixabay

從溝通、聞香、構想、嘗試、製作到完成,長達一、二年後,每 3.4 盎司(100.55 毫升)要價 4 萬美元的訂製香水,才會被呈現在顧客面前。所幸,對花不起重金與不特別愛好香水的人來說,還是有其他巧遇糞臭素的機緣。因為某個程度上來說,糞臭素就像愛。它撲朔迷離地存在生活中出乎意料之處:香水、茉莉、橙花、甜菜、香菸、糞便、煤焦油與草莓冰淇淋。糞臭素時臭時香,載舟亦能覆舟,令人欲拒還迎。

氣味的關鍵在於濃度

氣味由香變臭的關鍵,在於濃度。像是過多的愛,使人無法擔待。以體積比來說,一旦超過 60 pptV(0.327 ng/L)[註1],就會開始臭得一去不返[7]。如果以重量比計算,健康人體製造的糞便中,糞臭素濃度約為 5 μg/g,但消化道疾病患者,則可高達 80 到 100 μg/g[註2]。換句話說,腸道保健雖然不會讓人芬芳馥郁,但至少能避免如廁之後臭名遠揚[8]

回顧過去的調香職涯,Roja Dove 感嘆上等的原料不再是小農收成,產地直銷,人工合成的產物也逐漸取代天然素材。

「的確,我們必須在香水裡添加合成物。」他向時尚作家 Michael Paterniti 坦承,那是為了襯托自然的味道,但是如果大比例的使用人造成份,「合成的香水聞起來,就永遠僅是人工的氣息。」然而大時代的趨勢,就連知名調香師也無力回天。諷刺的是,在這場產業變遷的遺憾裡,得知糞臭素並非天然,卻多少能帶給香水顧客卑微的慰藉。

註解

  1. pptV(parts per trillion by volume),則是兆分之一體積比。ng/L,指每公升幾奈克。
  2. μg/g,又作 mcg/g,指每公克中有幾微克,也就是 ppmW(parts per million by weight)百分之一重量比。

參考資料

  1. How to Smell Like a God (GQ, 2014)
  2. Skatole – A Natural Monstrosity In Perfume, Parliaments, Produce And Poop (American Council on Science and Health, 2020)
  3. Impact of the Gut Microbiota on Intestinal Immunity Mediated by Tryptophan Metabolism (Frontiers in Cellular and Infection Microbiology, 2018)
  4. 羧酸(教育部重編國語辭典修訂本,臺灣學術網路第六版)
  5. Emil Fischer Biographical (the Nobel Prize)
  6. Skatole (American Chemical Society, 2021)
  7. Identification, quantification and treatment of fecal odors released into the air at two wastewater treatment plants (Journal of Environmental Economics and Management, 2016)
  8. New Insights Into Gut-Bacteria-Derived Indole and Its Derivatives in Intestinal and Liver Diseases (Frontiers in Pharmacology, 2021)

數感宇宙探索課程,現正募資中!

胡中行_96
29 篇文章 ・ 26 位粉絲
曾任澳洲臨床試驗研究護理師,以及臺、澳劇場工作者。 西澳大學護理碩士、國立台北藝術大學戲劇學士(主修編劇)。臉書:荒誕遊牧。