0

0
0

文字

分享

0
0
0

從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩

陳妤寧
・2016/05/24 ・2492字 ・閱讀時間約 5 分鐘 ・SR值 529 ・七年級

採訪編輯 / 陳妤寧

從小數據到大數據,資料科學獲得更多分析素材

「所謂的大數據,並沒有一個公認的標準去認定到底多大才是大數據。十年前電信公司和基地台所蒐集的數據其實也不少,而未來的資料量也會更多,到底誰是大是小呢?可以確定的是,資料量小也有資料量小的作法,而當資料越多,則能提供資料科學更細緻分析的材料來源。」東吳大學數學系的助理教授吳牧恩說。

現在電腦運算速度、雲端存儲能力都大幅提升,「60年前的存儲機器,容量 5M,體積跟桌子差不多大,要價 25 萬美金;而現在手機使用的 Micro SD 卡容量已經高達 128G。」這些硬體條件的升級,讓資料儲存和運算的能力得以大幅提昇。再加上網際網路和社群媒體的興起,所有的網路足跡都能在雲端留下記錄,以金融產業記錄的資料為例,記錄頻率從每分鐘變成每秒鐘記錄一次,整體資料量成長了數十萬倍。「以美國來說,每天實際成交的單和掛單的比例是 1:99,也就是平均送出 100 個買賣要求只會有 1 筆成交。對於想利用資料預測市場的人來說,那 99 筆其實也充滿資訊,如果能善加利用會是很好的素材。」如何在這些茫茫資料海中找出問題的答案,就是資料科學關心的領域。

演算法是資料運算的靈魂

電腦運算聽起來很神,但電腦到底是怎麼運算的呢?答案是以「演算法」做為計算的憑藉。電腦是一個指令一個動作,吳牧恩以「123排大小」為例,電腦無法直接判斷出「1<2<3」的結果,因此透過「1<2」、「1<3」、「2<3」兩兩對決的計算方式,加上電腦快速的運算能力,才能導出「1<2<3」的結果。「這個舉例只是其中一種演算法,如果要排的數字更多,數學家就要研究有沒有比兩兩對決更有效率的演算法?」吳牧恩說,研究演算法的本身就是要提升解題效率、降低運算的複雜度、找出比其他解法更有效的演算法。而有些問題不一定有標準解答,演算法就要盡力找出最佳解或近似解,例如獲利策略的最佳化。

再以 Facebook 演算法為例,Facebook 如何判斷哪則動態對使用者較為重要、應該優先呈現?如果是按照貼文者和使用者的「親疏遠近」作為依據,那麼 Facebook 又是如何定義「誰是你最要好的前十名好友?」這些指標必須透過演算法向電腦下指令,例如互動越多的就是越好的朋友?彼此互動的內容是否為正面的內容?種種不同的因子依不同的權重加總起來產生指標,讓 Facebook 進而判斷你想看什麼動態、甚至是想看什麼廣告。

數學為科學之母-股市策略裡的數學分析

數學為科學之母,然而數學的重要性在台灣卻被嚴重低估。吳牧恩以自己的經驗為例,大學唸數學系的他,後來漸往資訊安全和密碼學的領域深入,而現在則以股市金融的獲利模型為研究專業,研究資金運用最佳化和穩定獲利的策略,而這一切的背後都是仰賴數學模型來做分析。

以股市上的統計資料「回測」為例,為了檢驗某種交易方法是否有獲利的可行性,運用過去一段長時間內的股價資料,檢視損益曲線圖是否穩定成長,就是以數學如何驗證交易策略的體現。「若我想分析哪幾支股票容易大漲,我可以從歷史資料中去找出某些規律,做出假設--例如我假設只要前一天外資買超上百億、隔天開市的大漲機率就會很高--接著回測這個假設是否屬實、這兩個現象發生之間的相關性高不高,這就是一種條件機率的分析結果。」吳牧恩說。當歷史資料蒐集的期間越長、蒐集的項目越精細,巨量資料便能讓回測可以有更多資料去驗證假設、或是分析的更為細緻。

從現象找出相關,預測結果也是門機率的科學

無論是股市、選舉、球賽……只要是不確定的事都可以被拿來「預測」,一般人的目的可能是為了獲利,因此下注在自己最看好的可能性上;但對莊家來說,這是一個蒐集整合民調的大好機會,甚至可能可以分析出比問卷調查更為精準的結果。

但如何確定兩個高度相關的現象彼此之間互為因果關係呢?用下注的資料來分析,不會有抽樣的問題嗎?吳牧恩說,當分析的目的單純是為了要「預測成功」,例如在股市交易的單一導向為「獲利」,在這種環境下因果關係或抽樣方法反而是其次,只要計算成功機率,數學分析的任務便達成。但若要深入研究「為什麼」,就需要從發現的現象中由小追大,深入追查兩種現象之間是否真的互為因果,或是另有其他隱藏原因同步引起這兩個雙胞現象?

電腦不只能運算資料,也能應用程式自動交易

股市交易也隨著科技進步,除了券商推出各家的下單軟體,也出現「程式交易」,只要把交易策略和數學模型寫進程式,就可電腦自動買賣交易。例如以短暫價差套利的「高頻交易」,因為電腦一秒鐘可自動交易數百次,可以低風險賺取微利,是單憑人力無法達成的交易方式,因此同樣是做高頻交易,純看設備好壞、比電腦速度。

吳牧恩比喻,現在各家券商的下單軟體就如同傳統的雜貨店,如果出現了能夠自己蒐集分析全球交易資料,可以多元報價、可讓使用者便利操作程式交易或高頻交易的金融交易平台,很可能就會像現代的連鎖超商衝擊傳統雜貨店一般地襲捲金融圈。

回到資料本身,在程式應用之前必須要有演算模型,而在推出演算模型時必須要有資料驗證。而資料整理往往是最耗費資料科學家心神的工作,例如日期資訊的欄位要以秒還是毫秒為單位?商品的上下五檔報價?成交情形有無?有沒有人抽單?這些全都是資訊。也必須在重新整理資料時思考究竟哪些資訊對於分析問題有幫助、缺漏的資訊是否需要補充蒐集、統整資料的方式是否需要改變等等。

綜歸來說,數學對於資料科學的任何工作階段或工作角色而言都是重要的基礎能力。吳牧恩表示,數學邏輯好的人要進入子領域研究都能快速上手,也鼓勵學生在大學階段強化基礎能力,在研究所時再擇定應用的專業領域,也更具備跨領域的整合能力。

(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)

責任編輯:鄭國威

大數據專題報導系列:

  1. 資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震
  2. 運用海量資料讓機器「自學」,電腦將成為更好的決策代理人-專訪台大資工教授林守德
  3. 不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉
  4. 提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠

數感宇宙探索課程,現正募資中!

文章難易度
陳妤寧
38 篇文章 ・ 0 位粉絲
熱愛將知識拆解為簡單易懂的文字,喜歡把一件事的正反觀點都挖出來思考,希望用社會科學的視角創造更宏觀的視野。


0

3
0

文字

分享

0
3
0

調香師的秘密:「糞臭素」挑起你骯髒的慾望

胡中行_96
・2022/05/16 ・2039字 ・閱讀時間約 4 分鐘

倫敦高級區梅費爾(Mayfair)的聯排透天洋房裡,他與屋主近身互動。六呎高,湛藍的雙眸,古銅的肌膚,寬闊的下顎,銀髮一絲不苟地貼齊,以及一縷迷人的香氣:肉桂、皮革和不可言喻的香味,他確定迎面襲來的深刻,源自另一個時空。

梅菲爾位在倫敦西區,它是世界上最昂貴的地區之一。圖/Wikipedia

「當你嗅聞,你是用腦在聞。最原始的,處理記憶和情緒的部位。」
屋主解釋:「若芸芸眾生試圖尋覓自我的氣味,那我正在打造專屬你的身份。」

關於香水的秘密

一場訪談,讓男性時尚雜誌《GQ》的作家 Michael Paterniti 化身高級訂製香水的顧客,而江湖人稱「香水界情色男優」(the Pornographer of Perfume)的屋主 Roja Dove,正優雅地介紹混香的秘密。「我使用『糞臭素』,一種帶有糞便氣息的醜陋分子。男女性器皆與肛門比鄰,底蘊裡一丁點的『糞臭素』,便能喚起骯髒的慾望。」[1]

Roja Dove 是一位英國調香師。圖/Wikipedia

糞臭素是怎麼來的?

來到住處之前,兩人在麗池飯店(Ritz Hotel)旁的沃爾斯利餐廳(the Wolseley)用過午餐。此時他們的消化系統正將蛋白質,分解成胺基酸(amino acid)。接著,腸道內的菌落會先進行「去胺作用」(deamination),用氫去代換胺基。於是,有一種叫做「色胺酸」(tryptophan)的胺基酸,就變成「吲哚-3-乙酸」(indole-3-acetic acid,簡稱「IAA」)。

再來,乳酸桿菌(Lactobacillus)、梭菌(Clostridium)和類桿菌(Bacteroides),透過「去羧作用」(decarboxylation;羧,注音ㄗㄨㄟ)把 IAA 中的羧基(carboxylic acid group)換成氫,人體內的「糞臭素」(skatole;即3-methylindole)就誕生了[2][3][4]

Roja Dove 的調香手法

在正式調香之前,Roja Dove 會提供約莫 200 張的試香紙,讓訂製高級香水的顧客挑選最能觸發當下感覺,並連結過往回憶的幾種氣味。Roja Dove 將以它們為發想的根據,把原料輕拍到試香紙上,再把試香紙與一只金屬小風車連結。當小風車運轉,微風迎面吹來,他便能感受這些原料的效果。

當然,調香運用的糞臭素不是靠「人體製造」,而是在實驗室或工廠裡「人工合成」。1883 年德國化學家費雪(Hermann Emil Fischer, 1852-1919)發明了「費雪吲哚合成」(Fischer Indole Synthesis):一種苯肼(phenylhydrazine)和醛(aldehyde)或酮(ketone),透過酸觸媒(acid catalyst)催化產生的作用。一般罐裝糞臭素,便是這麼來的[2][5]

從溝通、聞香、構想、嘗試、製作到完成需要耗時一到二年。圖/Pixabay

從溝通、聞香、構想、嘗試、製作到完成,長達一、二年後,每 3.4 盎司(100.55 毫升)要價 4 萬美元的訂製香水,才會被呈現在顧客面前。所幸,對花不起重金與不特別愛好香水的人來說,還是有其他巧遇糞臭素的機緣。因為某個程度上來說,糞臭素就像愛。它撲朔迷離地存在生活中出乎意料之處:香水、茉莉、橙花、甜菜、香菸、糞便、煤焦油與草莓冰淇淋。糞臭素時臭時香,載舟亦能覆舟,令人欲拒還迎。

氣味的關鍵在於濃度

氣味由香變臭的關鍵,在於濃度。像是過多的愛,使人無法擔待。以體積比來說,一旦超過 60 pptV(0.327 ng/L)[註1],就會開始臭得一去不返[7]。如果以重量比計算,健康人體製造的糞便中,糞臭素濃度約為 5 μg/g,但消化道疾病患者,則可高達 80 到 100 μg/g[註2]。換句話說,腸道保健雖然不會讓人芬芳馥郁,但至少能避免如廁之後臭名遠揚[8]

回顧過去的調香職涯,Roja Dove 感嘆上等的原料不再是小農收成,產地直銷,人工合成的產物也逐漸取代天然素材。

「的確,我們必須在香水裡添加合成物。」他向時尚作家 Michael Paterniti 坦承,那是為了襯托自然的味道,但是如果大比例的使用人造成份,「合成的香水聞起來,就永遠僅是人工的氣息。」然而大時代的趨勢,就連知名調香師也無力回天。諷刺的是,在這場產業變遷的遺憾裡,得知糞臭素並非天然,卻多少能帶給香水顧客卑微的慰藉。

註解

  1. pptV(parts per trillion by volume),則是兆分之一體積比。ng/L,指每公升幾奈克。
  2. μg/g,又作 mcg/g,指每公克中有幾微克,也就是 ppmW(parts per million by weight)百分之一重量比。

參考資料

  1. How to Smell Like a God (GQ, 2014)
  2. Skatole – A Natural Monstrosity In Perfume, Parliaments, Produce And Poop (American Council on Science and Health, 2020)
  3. Impact of the Gut Microbiota on Intestinal Immunity Mediated by Tryptophan Metabolism (Frontiers in Cellular and Infection Microbiology, 2018)
  4. 羧酸(教育部重編國語辭典修訂本,臺灣學術網路第六版)
  5. Emil Fischer Biographical (the Nobel Prize)
  6. Skatole (American Chemical Society, 2021)
  7. Identification, quantification and treatment of fecal odors released into the air at two wastewater treatment plants (Journal of Environmental Economics and Management, 2016)
  8. New Insights Into Gut-Bacteria-Derived Indole and Its Derivatives in Intestinal and Liver Diseases (Frontiers in Pharmacology, 2021)

數感宇宙探索課程,現正募資中!

胡中行_96
29 篇文章 ・ 26 位粉絲
曾任澳洲臨床試驗研究護理師,以及臺、澳劇場工作者。 西澳大學護理碩士、國立台北藝術大學戲劇學士(主修編劇)。臉書:荒誕遊牧。