0

1
0

文字

分享

0
1
0

不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉

陳妤寧
・2016/05/24 ・2677字 ・閱讀時間約 5 分鐘 ・SR值 554 ・八年級

採訪 / 陳妤寧
撰文 / 李允誠

2013年時,哈利波特作者 J.K. 羅琳化名 Robert Galbraith 創作了一本偵探小說《Cuckoo》,評價雖高,銷量卻不好。英國的電腦科學家透過語意分析技術,將此著作和羅琳以往寫作文本比對,發現寫作手法極為接近,這也讓 J.K. 羅琳為真實作者一事曝光,《Cuckoo》因此大受關注,立刻竄上亞馬遜暢銷榜第一名。

上述案例中,語意分析可謂關鍵角色,但語意分析究竟如何運作?如何快速解構文本類型的「大數據」?本篇專訪中,鑽研中文語意分析的意藍科技董事長楊立偉,從技術原理談到語意分析各種應用和挑戰,深入分析了語意分析背後的眉角。

從單詞到文章,文本分析更深、更廣、更快

過去的資料探勘,大多侷限於結構化資料,像是論文、專利、論文、新聞稿等經過嚴謹撰寫完成的文章。隨著社群網站興起,人們在網路上發表意見變得越來越容易、卻也更零碎、甚至參雜許多錯字讓電腦難以精準判讀。而透過大數據為基礎發展演算法的語意分析,能夠分析非結構化的資訊,像是散文、小說等較無固定格式的文本,加深文本分析的廣度,同時納入圖片、影音各種非結構化資料所能提供的資訊。

假設你現在想查詢一個新聞事件,並分析網友、鄉民的看法,最直覺的方式便是利用 Google 進行關鍵字搜索,但這樣只能做到關鍵字比對,如此一來搜索出的資料將有幾百萬、幾千萬之譜,該如何進行整理、重點摘要?總不可能人工比對吧,這時,語意分析的優點便顯現出來了。楊立偉表示,語意分析透過爬梳大量網路資料,每日能夠搜索 60 億筆中文字詞,快速找出每日重要資訊。

2014 年 5 月時,越南發生排華暴動。楊立偉以當時分析越南地區的中文內容為例,除了字詞分析,也利用了情感分析。原先的文本內容大多為正面字詞,例如「建廠」、「投資」等等,但暴動當天開始出現許多負面字詞,例如「害怕」、「被砸」、「快跑」等等,情感分析的正負評比大為下滑。相對於傳統媒體可能是透過駐越記者或是當地新聞媒體報導才得知相關資訊,語意分析利用網路輿情觀察,足足快了十小時掌握新聞事件。

範例引導進行教學,機器學習增加準確率

楊立偉解釋,演算法為了能做到通篇分析,多採用機器學習的方式,就像教小孩念書,透過範例引導,結合答案輔助,電腦便能找出其中關聯。同時藉由資料庫的「語料」提供範例,輔以人工提供正確答案,電腦便能找出其中邏輯關係。

語意分析和關鍵字比對最大差異在於處理層級的不同。除了比對單詞外,它能以閱讀的概念進行分析,從前後文、段落乃至通篇文章進行分析。假設現在要分析「全家」便利商店的相關新聞,若以關鍵字比對,可能會抓出「全家一起玩」等無關字詞,但在語意分析下,此類句子會被過濾掉,只會抓出「全家推出新產品」等相關度較高的句子。

回家功課寫錯了要訂正,那語意分析錯了也要訂正嗎?「對於機器學習來說,我們只要告訴機器這樣的結果好不好,透過多次嘗試,機器會將不好與好的結果都學習下來,進而進行更準確的運算。」

語意分析的多種應用

1. 自動摘要:手機滑到一篇有興趣的文章,卻嫌文章太長不想看?透過語意分析,能夠找出一篇文章的重要字詞、摘要,讓人能短時間快速瞭解內文。楊立偉說明,通篇文章中,機器會先挑出具有代表性、特殊意義的字詞,再找出相關字詞的句子、段落,將分析出的摘要列出來,最後以人工的方式給摘要打分,如此一來機器在多次嘗試學習下,高分的摘要會愈來愈多,藉此發展出自動摘要的應用程式。

2. 以文找文:語意分析能透過文章中的重要、關鍵字詞,進而並找出相關文章。例如 Google新聞把相關性、類似的文章聚集,便是利用語意分析的技術。

3. 廣告信偵測:以 Gmail 為例,語意分析能判斷一封信中是否包含廣告信的常用字詞,協助信箱進行篩選。有時雖然也會誤判,但長時間下來,全世界的使用者亦會幫忙修正,不斷累積下,判斷準確率也愈來愈高。

4. 意見分析與情感分析:分析企業在網路上的口碑、評價。根據提到相關企業或產品的文章進行分析,篩選通篇文裡的正負面字詞,分析網友的觀點與情感。並透過通篇上下文,加強判斷正負面情緒的判讀。這項功能也能運用在企業客服中,偵測消費者的抱怨內容,轉介給適合處理的單位。

5. 寫作輔助:機器與人工能共同創作,協助文本效正。比如說台灣人若要以英文撰寫論文,語意分析便能幫助選詞、文法。

6. 電腦問答:如同 Siri,語意分析也能應用在人工智能對話,協助使用者利用問與答(Q&A)的方式找尋所需的資訊。

語意分析並非萬能,發展瓶頸和隱憂是?

語意分析並非百分百正確,目前仍多以機器學習的方式增加準確度,因此機器獲得的「語料」愈多愈好,也因此需要建立具大的資料庫,而系統的硬體設備也要有一定水準,才能快速進行分析。

除了硬體條件,語意分析現階段也仍需要以人工評量系統,為機器所分析出來的結果給與回饋與改善建議。除了需要語言學家針對不同語系的慣用法進行審核,若遇到專業領域的文本、字詞,也需要請相關領域專家協助評量,這些都是現階段語意分析在人事上無法完全去除的因子。

「水能載舟,亦能覆舟。」語意分析同時也可能會被用於造假、偽造。楊立偉坦言,利用語意分析的演算法,許多人能夠設計出論文製造機等應用,雖然透過機器產生的論文或許可信度較低,但有心人仍能將其投稿到審查制度較寬鬆的學術期刊上,藉此奪得在學術期刊上發表的機會。

在隱私問題方面,楊立偉解釋,語意分析只會搜尋公開的貼文和訊息。以臉書為例,只有公開帳號的文章會被納入分析,包含熱門粉絲頁、意見領袖、公開的個人頁。目前台灣以中文為主的公開帳號約有六百萬個,都是語意分析的守備範圍。

災害通報、事件預防、預測,也是語意分析技術的努力目標,透過網友貼文,能夠在短時間內搜集大量的破碎訊息,組合成一完整資訊匯流,對於提供災害事件資訊、甚至是建立災害預測模型,都將大有助益。「現在大數據的一大挑戰在於資料都存在不同的地方,因此『匯集』的角色更為重要。」楊立偉強調,許多大數據都是在講單一企業的資料庫分析、應用,但真正重要的是跨企業、領域的資料整合,數據分析才能更兼顧深度與廣度。

(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)

責任編輯:鄭國威

大數據專題報導系列:

  1. 資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震
  2. 運用海量資料讓機器「自學」,電腦將成為更好的決策代理人-專訪台大資工教授林守德
  3. 從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩
  4. 提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠

數感宇宙探索課程,現正募資中!

文章難易度
陳妤寧
38 篇文章 ・ 0 位粉絲
熱愛將知識拆解為簡單易懂的文字,喜歡把一件事的正反觀點都挖出來思考,希望用社會科學的視角創造更宏觀的視野。


0

3
0

文字

分享

0
3
0

調香師的秘密:「糞臭素」挑起你骯髒的慾望

胡中行_96
・2022/05/16 ・2039字 ・閱讀時間約 4 分鐘

倫敦高級區梅費爾(Mayfair)的聯排透天洋房裡,他與屋主近身互動。六呎高,湛藍的雙眸,古銅的肌膚,寬闊的下顎,銀髮一絲不苟地貼齊,以及一縷迷人的香氣:肉桂、皮革和不可言喻的香味,他確定迎面襲來的深刻,源自另一個時空。

梅菲爾位在倫敦西區,它是世界上最昂貴的地區之一。圖/Wikipedia

「當你嗅聞,你是用腦在聞。最原始的,處理記憶和情緒的部位。」
屋主解釋:「若芸芸眾生試圖尋覓自我的氣味,那我正在打造專屬你的身份。」

關於香水的秘密

一場訪談,讓男性時尚雜誌《GQ》的作家 Michael Paterniti 化身高級訂製香水的顧客,而江湖人稱「香水界情色男優」(the Pornographer of Perfume)的屋主 Roja Dove,正優雅地介紹混香的秘密。「我使用『糞臭素』,一種帶有糞便氣息的醜陋分子。男女性器皆與肛門比鄰,底蘊裡一丁點的『糞臭素』,便能喚起骯髒的慾望。」[1]

Roja Dove 是一位英國調香師。圖/Wikipedia

糞臭素是怎麼來的?

來到住處之前,兩人在麗池飯店(Ritz Hotel)旁的沃爾斯利餐廳(the Wolseley)用過午餐。此時他們的消化系統正將蛋白質,分解成胺基酸(amino acid)。接著,腸道內的菌落會先進行「去胺作用」(deamination),用氫去代換胺基。於是,有一種叫做「色胺酸」(tryptophan)的胺基酸,就變成「吲哚-3-乙酸」(indole-3-acetic acid,簡稱「IAA」)。

再來,乳酸桿菌(Lactobacillus)、梭菌(Clostridium)和類桿菌(Bacteroides),透過「去羧作用」(decarboxylation;羧,注音ㄗㄨㄟ)把 IAA 中的羧基(carboxylic acid group)換成氫,人體內的「糞臭素」(skatole;即3-methylindole)就誕生了[2][3][4]

Roja Dove 的調香手法

在正式調香之前,Roja Dove 會提供約莫 200 張的試香紙,讓訂製高級香水的顧客挑選最能觸發當下感覺,並連結過往回憶的幾種氣味。Roja Dove 將以它們為發想的根據,把原料輕拍到試香紙上,再把試香紙與一只金屬小風車連結。當小風車運轉,微風迎面吹來,他便能感受這些原料的效果。

當然,調香運用的糞臭素不是靠「人體製造」,而是在實驗室或工廠裡「人工合成」。1883 年德國化學家費雪(Hermann Emil Fischer, 1852-1919)發明了「費雪吲哚合成」(Fischer Indole Synthesis):一種苯肼(phenylhydrazine)和醛(aldehyde)或酮(ketone),透過酸觸媒(acid catalyst)催化產生的作用。一般罐裝糞臭素,便是這麼來的[2][5]

從溝通、聞香、構想、嘗試、製作到完成需要耗時一到二年。圖/Pixabay

從溝通、聞香、構想、嘗試、製作到完成,長達一、二年後,每 3.4 盎司(100.55 毫升)要價 4 萬美元的訂製香水,才會被呈現在顧客面前。所幸,對花不起重金與不特別愛好香水的人來說,還是有其他巧遇糞臭素的機緣。因為某個程度上來說,糞臭素就像愛。它撲朔迷離地存在生活中出乎意料之處:香水、茉莉、橙花、甜菜、香菸、糞便、煤焦油與草莓冰淇淋。糞臭素時臭時香,載舟亦能覆舟,令人欲拒還迎。

氣味的關鍵在於濃度

氣味由香變臭的關鍵,在於濃度。像是過多的愛,使人無法擔待。以體積比來說,一旦超過 60 pptV(0.327 ng/L)[註1],就會開始臭得一去不返[7]。如果以重量比計算,健康人體製造的糞便中,糞臭素濃度約為 5 μg/g,但消化道疾病患者,則可高達 80 到 100 μg/g[註2]。換句話說,腸道保健雖然不會讓人芬芳馥郁,但至少能避免如廁之後臭名遠揚[8]

回顧過去的調香職涯,Roja Dove 感嘆上等的原料不再是小農收成,產地直銷,人工合成的產物也逐漸取代天然素材。

「的確,我們必須在香水裡添加合成物。」他向時尚作家 Michael Paterniti 坦承,那是為了襯托自然的味道,但是如果大比例的使用人造成份,「合成的香水聞起來,就永遠僅是人工的氣息。」然而大時代的趨勢,就連知名調香師也無力回天。諷刺的是,在這場產業變遷的遺憾裡,得知糞臭素並非天然,卻多少能帶給香水顧客卑微的慰藉。

註解

  1. pptV(parts per trillion by volume),則是兆分之一體積比。ng/L,指每公升幾奈克。
  2. μg/g,又作 mcg/g,指每公克中有幾微克,也就是 ppmW(parts per million by weight)百分之一重量比。

參考資料

  1. How to Smell Like a God (GQ, 2014)
  2. Skatole – A Natural Monstrosity In Perfume, Parliaments, Produce And Poop (American Council on Science and Health, 2020)
  3. Impact of the Gut Microbiota on Intestinal Immunity Mediated by Tryptophan Metabolism (Frontiers in Cellular and Infection Microbiology, 2018)
  4. 羧酸(教育部重編國語辭典修訂本,臺灣學術網路第六版)
  5. Emil Fischer Biographical (the Nobel Prize)
  6. Skatole (American Chemical Society, 2021)
  7. Identification, quantification and treatment of fecal odors released into the air at two wastewater treatment plants (Journal of Environmental Economics and Management, 2016)
  8. New Insights Into Gut-Bacteria-Derived Indole and Its Derivatives in Intestinal and Liver Diseases (Frontiers in Pharmacology, 2021)

數感宇宙探索課程,現正募資中!

胡中行_96
29 篇文章 ・ 26 位粉絲
曾任澳洲臨床試驗研究護理師,以及臺、澳劇場工作者。 西澳大學護理碩士、國立台北藝術大學戲劇學士(主修編劇)。臉書:荒誕遊牧。