0

1
0

文字

分享

0
1
0

不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉

陳妤寧
・2016/05/24 ・2677字 ・閱讀時間約 5 分鐘 ・SR值 554 ・八年級

採訪 / 陳妤寧
撰文 / 李允誠

2013年時,哈利波特作者 J.K. 羅琳化名 Robert Galbraith 創作了一本偵探小說《Cuckoo》,評價雖高,銷量卻不好。英國的電腦科學家透過語意分析技術,將此著作和羅琳以往寫作文本比對,發現寫作手法極為接近,這也讓 J.K. 羅琳為真實作者一事曝光,《Cuckoo》因此大受關注,立刻竄上亞馬遜暢銷榜第一名。

上述案例中,語意分析可謂關鍵角色,但語意分析究竟如何運作?如何快速解構文本類型的「大數據」?本篇專訪中,鑽研中文語意分析的意藍科技董事長楊立偉,從技術原理談到語意分析各種應用和挑戰,深入分析了語意分析背後的眉角。

從單詞到文章,文本分析更深、更廣、更快

過去的資料探勘,大多侷限於結構化資料,像是論文、專利、論文、新聞稿等經過嚴謹撰寫完成的文章。隨著社群網站興起,人們在網路上發表意見變得越來越容易、卻也更零碎、甚至參雜許多錯字讓電腦難以精準判讀。而透過大數據為基礎發展演算法的語意分析,能夠分析非結構化的資訊,像是散文、小說等較無固定格式的文本,加深文本分析的廣度,同時納入圖片、影音各種非結構化資料所能提供的資訊。

-----廣告,請繼續往下閱讀-----

假設你現在想查詢一個新聞事件,並分析網友、鄉民的看法,最直覺的方式便是利用 Google 進行關鍵字搜索,但這樣只能做到關鍵字比對,如此一來搜索出的資料將有幾百萬、幾千萬之譜,該如何進行整理、重點摘要?總不可能人工比對吧,這時,語意分析的優點便顯現出來了。楊立偉表示,語意分析透過爬梳大量網路資料,每日能夠搜索 60 億筆中文字詞,快速找出每日重要資訊。

2014 年 5 月時,越南發生排華暴動。楊立偉以當時分析越南地區的中文內容為例,除了字詞分析,也利用了情感分析。原先的文本內容大多為正面字詞,例如「建廠」、「投資」等等,但暴動當天開始出現許多負面字詞,例如「害怕」、「被砸」、「快跑」等等,情感分析的正負評比大為下滑。相對於傳統媒體可能是透過駐越記者或是當地新聞媒體報導才得知相關資訊,語意分析利用網路輿情觀察,足足快了十小時掌握新聞事件。

範例引導進行教學,機器學習增加準確率

楊立偉解釋,演算法為了能做到通篇分析,多採用機器學習的方式,就像教小孩念書,透過範例引導,結合答案輔助,電腦便能找出其中關聯。同時藉由資料庫的「語料」提供範例,輔以人工提供正確答案,電腦便能找出其中邏輯關係。

語意分析和關鍵字比對最大差異在於處理層級的不同。除了比對單詞外,它能以閱讀的概念進行分析,從前後文、段落乃至通篇文章進行分析。假設現在要分析「全家」便利商店的相關新聞,若以關鍵字比對,可能會抓出「全家一起玩」等無關字詞,但在語意分析下,此類句子會被過濾掉,只會抓出「全家推出新產品」等相關度較高的句子。

-----廣告,請繼續往下閱讀-----

回家功課寫錯了要訂正,那語意分析錯了也要訂正嗎?「對於機器學習來說,我們只要告訴機器這樣的結果好不好,透過多次嘗試,機器會將不好與好的結果都學習下來,進而進行更準確的運算。」

語意分析的多種應用

1. 自動摘要:手機滑到一篇有興趣的文章,卻嫌文章太長不想看?透過語意分析,能夠找出一篇文章的重要字詞、摘要,讓人能短時間快速瞭解內文。楊立偉說明,通篇文章中,機器會先挑出具有代表性、特殊意義的字詞,再找出相關字詞的句子、段落,將分析出的摘要列出來,最後以人工的方式給摘要打分,如此一來機器在多次嘗試學習下,高分的摘要會愈來愈多,藉此發展出自動摘要的應用程式。

2. 以文找文:語意分析能透過文章中的重要、關鍵字詞,進而並找出相關文章。例如 Google新聞把相關性、類似的文章聚集,便是利用語意分析的技術。

3. 廣告信偵測:以 Gmail 為例,語意分析能判斷一封信中是否包含廣告信的常用字詞,協助信箱進行篩選。有時雖然也會誤判,但長時間下來,全世界的使用者亦會幫忙修正,不斷累積下,判斷準確率也愈來愈高。

-----廣告,請繼續往下閱讀-----

4. 意見分析與情感分析:分析企業在網路上的口碑、評價。根據提到相關企業或產品的文章進行分析,篩選通篇文裡的正負面字詞,分析網友的觀點與情感。並透過通篇上下文,加強判斷正負面情緒的判讀。這項功能也能運用在企業客服中,偵測消費者的抱怨內容,轉介給適合處理的單位。

5. 寫作輔助:機器與人工能共同創作,協助文本效正。比如說台灣人若要以英文撰寫論文,語意分析便能幫助選詞、文法。

6. 電腦問答:如同 Siri,語意分析也能應用在人工智能對話,協助使用者利用問與答(Q&A)的方式找尋所需的資訊。

語意分析並非萬能,發展瓶頸和隱憂是?

語意分析並非百分百正確,目前仍多以機器學習的方式增加準確度,因此機器獲得的「語料」愈多愈好,也因此需要建立具大的資料庫,而系統的硬體設備也要有一定水準,才能快速進行分析。

-----廣告,請繼續往下閱讀-----

除了硬體條件,語意分析現階段也仍需要以人工評量系統,為機器所分析出來的結果給與回饋與改善建議。除了需要語言學家針對不同語系的慣用法進行審核,若遇到專業領域的文本、字詞,也需要請相關領域專家協助評量,這些都是現階段語意分析在人事上無法完全去除的因子。

「水能載舟,亦能覆舟。」語意分析同時也可能會被用於造假、偽造。楊立偉坦言,利用語意分析的演算法,許多人能夠設計出論文製造機等應用,雖然透過機器產生的論文或許可信度較低,但有心人仍能將其投稿到審查制度較寬鬆的學術期刊上,藉此奪得在學術期刊上發表的機會。

在隱私問題方面,楊立偉解釋,語意分析只會搜尋公開的貼文和訊息。以臉書為例,只有公開帳號的文章會被納入分析,包含熱門粉絲頁、意見領袖、公開的個人頁。目前台灣以中文為主的公開帳號約有六百萬個,都是語意分析的守備範圍。

災害通報、事件預防、預測,也是語意分析技術的努力目標,透過網友貼文,能夠在短時間內搜集大量的破碎訊息,組合成一完整資訊匯流,對於提供災害事件資訊、甚至是建立災害預測模型,都將大有助益。「現在大數據的一大挑戰在於資料都存在不同的地方,因此『匯集』的角色更為重要。」楊立偉強調,許多大數據都是在講單一企業的資料庫分析、應用,但真正重要的是跨企業、領域的資料整合,數據分析才能更兼顧深度與廣度。

-----廣告,請繼續往下閱讀-----

(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)

責任編輯:鄭國威

大數據專題報導系列:

  1. 資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震
  2. 運用海量資料讓機器「自學」,電腦將成為更好的決策代理人-專訪台大資工教授林守德
  3. 從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩
  4. 提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠
-----廣告,請繼續往下閱讀-----
文章難易度
陳妤寧
38 篇文章 ・ 1 位粉絲
熱愛將知識拆解為簡單易懂的文字,喜歡把一件事的正反觀點都挖出來思考,希望用社會科學的視角創造更宏觀的視野。

0

0
0

文字

分享

0
0
0
為什麼越累越難睡?當大腦想下班,「腸道」卻還在加班!
鳥苷三磷酸 (PanSci Promo)_96
・2026/04/30 ・2519字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

本文與  益福生醫 合作,泛科學企劃執行

昨晚,你又在床上翻來覆去、無法入眠了嗎?這或許是現代社會最普遍的深夜共鳴。儘管換了昂貴的乳膠枕、拉上百分之百遮光的窗簾,甚至在腦海中數了幾百隻羊,大腦的那個「睡眠開關」卻彷彿生鏽般卡住。這種渴望休息卻睡不著的過程,讓失眠成了一場耗損身心的極限馬拉松 。

皮質醇:你體內那位「永不熄滅」的深夜警報器

要理解失眠,我們得先認識身體的一套精密防衛系統:下視丘-垂體-腎上腺軸(HPA axis) 。這套系統原本是演化給我們的禮物,讓我們在面對劍齒虎或突如其來的危險時,能迅速進入「戰鬥或快逃」的備戰狀態。當這套系統啟動,腎上腺就會分泌皮質醇 (壓力荷爾蒙),這種荷爾蒙能調動能量、提高警覺性,讓我們在危機中保持清醒 。

然而,現代人的「劍齒虎」不再是野獸,而是無止盡的專案進度、電子郵件與職場競爭。對於長期處於高壓或高強度工作環境的人們來說,身體的警報系統可能處於一種「切換不掉」的狀態。

-----廣告,請繼續往下閱讀-----

在理想的狀態下,人類的生理時鐘像是一場精確的接力賽。入夜後,身體會進入「修復模式」,此時壓力荷爾蒙「皮質醇」的濃度應該降至最低點,讓「睡眠荷爾蒙」褪黑激素(Melatonin)接棒主導。褪黑激素不僅負責傳遞「天黑了」的訊號,它還能抑制腦中負責維持清醒的食慾素(Orexin)神經元,幫助大腦順利關閉覺醒開關。

對於長期處於高壓或高強度工作環境的人們來說,身體的警報系統可能處於一種「切換不掉」的狀態 / 圖片來源:envato

然而,當壓力介入時,這場接力賽就會變成跑不完的馬拉松賽。研究指出,長期的高壓環境會導致 HPA 軸過度活化,使得夜間皮質醇異常分泌。這不僅會抑制褪黑激素的分泌,更會讓食慾素在深夜裡持續活化,強迫大腦維持在「高覺醒狀態(Hyperarousal)」。 這種令人崩潰的狀態就是,明明你已經累到不行,但大腦卻像停不下來的發電機!

長期的睡眠不足會導致體內促發炎細胞激素上升,而發炎反應又會進一步活化 HPA 軸,分泌更多皮質醇來試圖消炎,高濃度的皮質醇會進一步干擾深層睡眠與快速動眼期(REM),導致睡眠品質變得低弱又破碎,最終形成「壓力-發炎-失眠」的惡行循環。也就是說,你不是在跟睡眠上的意志力作對,而是在跟失控的生理長期鬥爭。

從腸道重啟好眠開關:PS150 菌株如何調校你的生理時鐘

面對這種煞車失靈的失眠困局,科學家們將目光投向了人體內另一個繁榮的生態系:腸道。腸道與大腦之間存在著一條雙向通訊的高速公路,這就是「菌-腸-腦軸 (Microbiome-Gut-Brain Axis, MGBA)」,而某些特殊菌株不僅能幫助消化、排便,更能透過神經與內分泌途徑與大腦對話,直接參與調節我們的壓力調節與睡眠節律。這種菌株被科學家稱為「精神益生菌」(Psychobiotics)。

-----廣告,請繼續往下閱讀-----
腸道與大腦之間存在著一條雙向通訊的高速公路,這就是「菌-腸-腦軸 (Microbiome-Gut-Brain Axis, MGBA)」/圖片來源:益福生醫

在眾多研究菌株中,發酵乳桿菌 Limosilactobacillus fermentum PS150 的表現格外引人注目。PS150菌株源於亞洲益生菌權威「蔡英傑教授」團隊的專業研發,累積多年功能性菌株研發經驗的科學成果。針對臨床常見的「初夜效應」(First Night Effect, FNE),也就是現代人因出差、換床或環境改變導致的入睡困難,俗稱認床。科學家在進行實驗時發現,補充 PS150 菌株能顯著恢復非快速動眼期(NREM)的睡眠長度,且入睡更快,起床後也更容易清醒。更重要的是,不同於常見的藥物助眠手段(如抗組織胺藥物 DIPH)容易造成快速動眼期(REM)剝奪或導致睡眠破碎化,PS150 菌株展現出一種更為「溫和且自然」的調節力,它能有效縮短入睡所需的時間,並恢復睡眠中代表深層修復的「Delta 波」能量。

科學家發現,即便將 PS150 菌株經過特殊的熱處理(Heat-treated),轉化為不具活性但保有關鍵成分的「後生元」(Postbiotics),其生物活性依然能與活菌媲美 。HT-PS150 技術解決了益生菌在儲存與攝取過程中容易失去活性的痛點,讓這些腸道通訊員能更穩定地發揮作用 。

在臨床實驗中,科學家觀察到一個耐人尋味的現象:當詢問受試者的主觀感受時,往往會遇到強大的「安慰劑效應」,無論是服用 HT-PS150 還是安慰劑的人,主觀上大多表示睡眠變好了。這種「體感上的進步」有時會掩蓋真相,讓人分不清是心理作用還是真實效益。

然而,客觀的生理數據(Biomarkers)卻揭開了關鍵的差異。在排除主觀偏誤後,實驗數據顯示 HT-PS150 組有更高比例的人(84.6%)出現了夜間褪黑激素分泌增加,且壓力荷爾蒙(皮質醇)顯著下降,這證明了菌株確實啟動了體內的睡眠調控系統,而不僅僅是心理安慰。

-----廣告,請繼續往下閱讀-----

最值得關注的是,對於那些失眠指數較高(ISI ≧ 8)的族群,這種「生理修復」與「主觀體感」終於達成了一致。這群人在補充 HT-PS150 後,不僅生理標記改善,連原本嚴重困擾的主觀睡眠效率、持續時間,以及焦慮感也出現了顯著的進步。

了解更多PS150助眠益生菌:https://lihi3.me/KQ4zi

重新定義深層睡眠:構建全方位的深夜修復計畫

睡眠從來就不只是單純的休息,而是一場生理功能的全面重整。想要重獲高品質的睡眠,關鍵在於為自己建立一個全方位的修復生態系。

這套系統的基石,始於良好的生活習慣。從減少睡前數位螢幕的干擾、優化室內環境,到作息調整。當我們透過規律作息來穩定神經系統,並輔以現代科學對於 PS150 菌株的調節力發現,身體便能更順暢地啟動睡眠開關,回歸自然的運作節律。

-----廣告,請繼續往下閱讀-----

與其將失眠視為意志力的抗爭,不如將其看作是生理機能與腸道微生態的深度溝通。透過生活作息的調整與科學實證的支持,每個人都能擁有掌控睡眠的主動權。現在就從優化生活型態開始,為自己按下那個久違的、如嬰兒般香甜的關機鍵吧。

與其將失眠視為意志力的抗爭,不如將其看作是生理機能與腸道微生態的深度溝通 / 圖片來源 : envato

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
247 篇文章 ・ 319 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

0

104
0

文字

分享

0
104
0
肺部為何會「結疤」?揭開比癌症更致命的「菜瓜布肺」,科學家如何找到破解惡性循環的新契機
鳥苷三磷酸 (PanSci Promo)_96
・2026/05/08 ・2041字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

本文由 肺纖維化(菜瓜布肺)社團衛教 合作,泛科學撰文

在現代醫學的警示清單裡,乳癌、大腸癌這些疾病大家都不陌生;但有一個「隱蔽且致命」的威脅卻常被忽視,那就是「肺纖維化」。其中最常見的類型「特發性肺纖維化」(IPF),其預後往往不太樂觀,確診後的五年存活率甚至比許多常見的癌症還低。

首先,我們得先破解一個迷思:肺纖維化並不是單一疾病,而是許多種間質性肺病的共同表現。當我們聽到「肺纖維化」,腦中常浮現「菜瓜布肺」的形象,患者的肺部外觀充滿一個個空洞與疤痕,像極了乾燥的絲瓜。這精準描繪了肺部組織逐漸硬化、失去彈性的過程。

更重要的是,IPF 這類肺纖維化的威脅在於「不可逆」的特性,一旦形成就很難逆轉。這跟部分 COVID-19 康復者身上、仍有機會復原的肺纖維化,是兩種完全不同的概念。

-----廣告,請繼續往下閱讀-----
IPF 這類肺纖維化的威脅在於「不可逆」的特性,一旦形成就很難逆轉 / 圖示來源:shutterstock

肺部為何會變成「菜瓜布」?

為什麼好端端的肺會變成菜瓜布?這其實是一場身體修復機制失控的結果。

「纖維化」的組織,就是肺部間質組織(interstitium)的疤痕化。間質是圍繞在肺泡周圍,包含血管與支持肺部結構的結締組織。在正常情況下,肺部損傷後會啟動修復機制,並再生健康組織。但在肺纖維化的患者體內,這套修復機制卻「當機」了。

身體會不斷地發出訊號,導致負責修復工作的「纖維母細胞」(fibroblasts)被過度活化,進而失控地沉積膠原蛋白疤痕組織,最終在肺部形成永久性的纖維化。

科學家發現,這個過程之所以棘手,在於它是一個「惡性循環」,肺部同時存在著「發炎反應」與「纖維化」這兩條路徑 ,它們相互加乘,演變成難以阻斷的強大破壞力。

-----廣告,請繼續往下閱讀-----

雖然特發性肺纖維化 (IPF) 的具體成因不明 ,但已知某些特定族群的風險更高。例如抽菸,特定年齡與性別(50歲以上男性)、長期暴露於粉塵環境的工作者(農業、畜牧業、採礦業…)、胃食道逆流者。此外,患有自體免疫疾病(如類風濕性關節炎、乾燥症、硬皮症、皮肌炎/多發性肌炎,)的患者,他們併發肺纖維化的機率遠高於一般人,必須特別警覺。

雖然特發性肺纖維化 (IPF) 的具體成因不明 ,但已知某些特定族群的風險更高。/ 圖示來源:shutterstock

打斷惡性循環的挑戰,為何只對抗「纖維化」還不夠?

面對這個不可逆的疾病,醫學界長年束手無策,直到 2014 年才迎來一道曙光。美國 FDA 批准了兩種機制不同的新藥:Nintedanib 和 Pirfenidone。這兩種藥物的出現是治療史上的分水嶺,首度被證實能夠「延緩」IPF 患者肺功能的惡化速度。

然而,這場戰役尚未結束。現有的治療雖然帶來了希望,卻也凸顯了「未被滿足的醫療需求」。從機制上來看,這些藥物主要抑制的是「纖維化路徑」。

這讓科學界開始思考這個未被滿足的棘手問題:既然疾病的本質是「發炎」與「纖維化」的雙重打擊,那麼,我們是否能找到「同時抑制」這兩條路徑的全新策略,從而更有效地打斷這個惡性循環?

-----廣告,請繼續往下閱讀-----

找到同時調控「發炎」與「纖維化」的新靶點

為了解決難題,科學家將目光鎖定在一個細胞內的酵素:磷酸二酯酶 4B(PDE4B)

為什麼鎖定它?讓我們看看它的「雙重作用」機制:

  1. 關鍵位置: PDE4B 同時存在於免疫細胞(與發炎有關)與纖維母細胞(與纖維化有關)當中。
  2. 作用機制: PDE4B 的主要工作是降解細胞內一種叫 cAMP(環磷酸腺苷) 的訊號分子。cAMP 可以被視為細胞內的「穩定信號」。
  3. 雙重抑制: 當我們使用藥物抑制了 PDE4B 的活性,細胞內的 cAMP 就不會被分解,濃度會隨之升高。高濃度的 cAMP 能穩定免疫細胞和纖維母細胞,同時產生抗發炎抗纖維化的雙重效應。

簡單來說,鎖定並抑制 PDE4B,就像是同時抑制了免疫風暴與纖維化的工程,有望從雙從抑制打擊這個惡性循環。

全球臨床試驗帶來的新希望

近十年來,全球在肺纖維化領域投入了大量的臨床試驗,我們相信,在科學家逐步破解肺纖維化惡性循環的複雜難題後,期盼未來能為無數患者爭取到更安全、健康的生活與未來。

-----廣告,請繼續往下閱讀-----

最後,我們必須再次提醒,特發性肺纖維化(IPF)與漸進性肺纖維化(PPF)是極具破壞性、且不可逆的疾病。面對這個比癌症更致命的對手,雖然現有的治療手段能延緩惡化,但無法逆轉已經形成的肺部疤痕組織,因此「早期診斷、早期治療」仍是對抗肺纖維化最重要的黃金時刻。

必須再次提醒,特發性肺纖維化(IPF)與漸進性肺纖維化(PPF)是極具破壞性、且不可逆的疾病。/ 圖示來源:


-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
247 篇文章 ・ 319 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

0

6
3

文字

分享

0
6
3
植物口渴就喊:「啵、啵、啵~」
胡中行_96
・2023/04/06 ・2956字 ・閱讀時間約 6 分鐘

久旱不雨,植物悲鳴,[1, 2]類似教育部《臺灣閩南語常用詞辭典》所謂「因飢餓而吵鬧」的「哭枵」(khàu-iau)。[3]別問為何沒聽過,也不怪天地寡情,人類無義,從來漠不關心。植物叫那種超音波,傳至咱們耳裡就只剩寧靜。幸好靠著以色列科學家幫忙,轉換到常人的聽覺範圍,並分享於 2023 年 3 月底的《細胞》(Cell)期刊,才廣為周知。[1]

轉換到人類聽力範圍的番茄「叫聲」。音/參考資料 1,Audio S1(CC BY 4.0)

傾聽植物的聲音

面臨乾旱或草食動物的威脅,植物會做出多種反應,例如:改變外貌,或是以揮發性有機化合物影響鄰居等。[1]過去的文獻指出,缺水引發空蝕現象(cavitation),使植物負責輸送水份的木質部,因氣泡形成、擴張和破裂而震動。[1, 4]現在科學家想知道,這是否也會產生在特定距離內,能被其他物種聽見的聲音。[1]

受試的對象是番茄菸草,分別拆成乾旱、修剪和對照 3 組。對照組又有常態生長的一般對照、有土卻無植物的盆器,以及每株植物實驗前的自體對照 3 種。實驗大致有幾個階段:首先,在隔音箱裡,距離每個受試對象 10 公分處,各立 2 支麥克風收音。將聲音的紀錄分類後,拿去進行機器學習。接著移駕溫室,讓訓練好的模型,分辨雜音和不同情況下植物的聲音。再來,觀察乾旱程度與植物發聲的關係。最後,也測試其他的植物和狀態。[1]

麥克風對著乾旱、修剪和對照組的植物收音。圖/參考資料 1,Graphical Abstract局部(CC BY 4.0)

植物錄音與機器學習

隔音箱裡常態生長的植物,每小時平均發聲少於一次;而沒植物的盆器當然完全無聲。相對地,遭受乾旱或修剪壓力的實驗組植物,反應則十分劇烈:[1]

-----廣告,請繼續往下閱讀-----
 平均值(單位)番茄菸草
乾旱發聲頻率(次/小時)35.4 ± 6.111.0 ± 1.4
 音量(聲壓分貝;dBSPL)61.6 ± 0.165.6 ± 0.4
 聲波頻率(千赫茲;kHz)49.6 ± 0.454.8 ± 1.1
修剪發聲頻率(次/小時)25.2 ± 3.215.2 ± 2.6
 音量(聲壓分貝;dBSPL)65.6 ± 0.263.3 ± 0.2
 聲波頻率(千赫茲;kHz)57.3 ± 0.757.8 ± 0.7

隔音箱中實驗組的錄音,被依照植物品種以及所受的待遇,歸納為 4 個組別,各組別再彼此配對比較,例如:乾旱的番茄對修剪的番茄等。以此資料訓練出來的機器學習模型,判別配對中各組別的準確率為 70%。第二階段在溫室中進行,自然較隔音箱嘈雜。科學家拿空蕩溫室的環境錄音,來教模型分辨並過濾雜訊。訓練後,令其區別乾旱與對照組番茄的聲音,結果 84% 正確。[1]既然能聽得出基本的差別,下一步就是了解水量對番茄發聲的影響。

體積含水量

為了操縱體積含水量(volumetric water content,縮寫VWC),即水份與泥土體積的比值或百分比,[1, 5]科學家狠下心,連續幾天都不給溫室裡的番茄植栽喝水。一邊觀察 VWC 的變化;一邊錄下它們的聲音。起先水份充足,番茄不太吵鬧;4、5 天下來,發聲的次數逐漸增加至高峰;然後應該是快渴死了,有氣無力,所以次數又開始減少。此外,番茄通常都在早上 8 點(圖表較像 7 點)到中午 12 點,以及下午 4 點至晚上 7 點,這兩個時段出聲。[1]科學家覺得這般作息,可能與規律的氣孔導度(stomatal conductance),也就是跟光合作用的換氣以及蒸散作用的水份蒸發,兩個透過氣孔進行的動作有關。[1, 6]

大部份的聲音都是在 VWC < 0.05 時出現;當 VWC > 0.1,水份還足夠,就幾乎無聲。科學家將比較的條件進一步分成 VWC < 0.01 與 VWC > 0.05、VWC < 0.05 跟 VWC > 0.05,以及 VWC < 0.01、VWC > 0.05 和淨空溫室的聲音。機器學習模型分辨起來,都有七、八成的準確率。[1]

縱軸為每日發聲次數;橫軸為缺乏灌溉的天數。圖/參考資料 1,Figure 3A(CC BY 4.0)
乾旱狀態下,番茄發聲的時段。縱軸為每小時發聲次數;橫軸為 24 小時制的時間。圖/參考資料 1,Figure 3B(CC BY 4.0)

植物發聲的原理

實驗觀察所得,都將植物發聲的機制,指向木質部導管中氣體的運動,也就是科學家先前預期的空蝕現象[1]下面為支持這項推論的理由:

-----廣告,請繼續往下閱讀-----
  1. 木質部導管的口徑,與植物被錄到的聲波頻率相關:寬的低;而窄的高。[1]
  2. 乾旱與修剪所造成的聲音不同:在木質部導管中,前者氣泡形成緩慢,發聲時數較長;而後者則相當迅速,時數較短。[1]
  3. 聲音是由植物的莖,向四面八方傳播。[1]
  4. 空蝕現象造成的震動,跟記錄到的超音波,部份頻率重疊;而沒有重疊的,其實已經超出其他物種的聽力以及麥克風收音的範圍。[1]
葡萄、菸草和番茄木質部導管的水平橫截面。圖/參考資料 1,Figure S4B(CC BY 4.0)
葡萄(綠色)、菸草(灰色)和番茄(橙色)的差異:縱軸為聲波頻率;橫軸是木質部導管的平均口徑。圖/參考資料 1,Figure S4A(CC BY 4.0)

問誰未發聲

觀察完番茄和菸草之後,科學家不禁好奇,別的植物是否也會為自己的處境發聲?還是它們都默默受苦,無聲地承擔?研究團隊拿小麥玉米卡本內蘇維濃葡萄(Cabernet Sauvignon grapevine)、奇隆丸仙人掌(Mammillaria spinosissima)與寶蓋草(henbit)來測試,發現它們果然有聲音。不過,像杏仁樹之類的木本植物,還有木質化的葡萄藤就沒有了。另外,科學家又監聽感染菸草嵌紋病毒(tobacco mosaic virus)的番茄,並錄到它們的病中呻吟。[1]

你敢有聽著咱的歌

之前有研究指出,海邊月見草(Oenothera drummondii)暴露於蜜蜂的聲音時,會產出較甜的花蜜。[2]若將角色對調過來:植物在乾旱、修剪或感染等壓力下釋出的超音波,頻率約在 20 至 100 kHz 之間,理論上 3 到 5 公尺內的某些哺乳動物或昆蟲,例如:蝙蝠、老鼠和飛蛾,應該聽得到。[1, 2]以色列科學家認為幼蟲會寄住在番茄或菸草上的飛蛾,或許能辨識植物的聲波,並做出某些反應。同理,人類可以用機器學習模型,分辨農作物的聲音,再給予相應的照顧。如此不僅節省水源,精準培育,還能預防氣候變遷所導致的糧食危機。[1]

  

備註

本文最後兩個子標題,借用音樂劇《Les Misérables》歌曲〈Do You Hear the People Sing?〉的粵語和臺語版曲名。[7]

-----廣告,請繼續往下閱讀-----

參考資料

  1. Khait I, Lewin-Epstein O, Sharon R. (2023) ‘Sounds emitted by plants under stress are airborne and informative’. Cell, 106(7): 1328-1336.
  2. Marris E. (30 MAR 2023) ‘Stressed plants ‘cry’ — and some animals can probably hear them’. Nature.
  3. 教育部「哭枵」臺灣閩南語常用詞辭典(Accessed on 01 APR 2023)
  4. McElrone A J, Choat B, Gambetta GA, et al. (2013) ‘Water Uptake and Transport in Vascular Plants’. Nature Education Knowledge, 4(5):6.
  5. Datta S, Taghvaeian S, Stivers J. (AUG 2018) ‘Understanding Soil Water Content and Thresholds for Irrigation Management’. OSU Extension of Oklahoma State University.
  6. Murray M, Soh WK, Yiotis C, et al. (2020) ‘Consistent Relationship between Field-Measured Stomatal Conductance and Theoretical Maximum Stomatal Conductance in C3 Woody Angiosperms in Four Major Biomes’. International Journal of Plant Sciences, 181, 1.
  7. FireRock Music.(16 JUN 2019)「【問誰未發聲】歌詞 Mix全民超長版 粵+國+台+英 口琴+小童+學生+市民 Do you hear the people sing?」YouTube.
-----廣告,請繼續往下閱讀-----
胡中行_96
169 篇文章 ・ 68 位粉絲
曾任澳洲臨床試驗研究護理師,以及臺、澳劇場工作者。 西澳大學護理碩士、國立台北藝術大學戲劇學士(主修編劇)。邀稿請洽臉書「荒誕遊牧」,謝謝。

0

1
0

文字

分享

0
1
0
不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉
陳妤寧
・2016/05/24 ・2677字 ・閱讀時間約 5 分鐘 ・SR值 554 ・八年級

採訪 / 陳妤寧
撰文 / 李允誠

2013年時,哈利波特作者 J.K. 羅琳化名 Robert Galbraith 創作了一本偵探小說《Cuckoo》,評價雖高,銷量卻不好。英國的電腦科學家透過語意分析技術,將此著作和羅琳以往寫作文本比對,發現寫作手法極為接近,這也讓 J.K. 羅琳為真實作者一事曝光,《Cuckoo》因此大受關注,立刻竄上亞馬遜暢銷榜第一名。

上述案例中,語意分析可謂關鍵角色,但語意分析究竟如何運作?如何快速解構文本類型的「大數據」?本篇專訪中,鑽研中文語意分析的意藍科技董事長楊立偉,從技術原理談到語意分析各種應用和挑戰,深入分析了語意分析背後的眉角。

從單詞到文章,文本分析更深、更廣、更快

過去的資料探勘,大多侷限於結構化資料,像是論文、專利、論文、新聞稿等經過嚴謹撰寫完成的文章。隨著社群網站興起,人們在網路上發表意見變得越來越容易、卻也更零碎、甚至參雜許多錯字讓電腦難以精準判讀。而透過大數據為基礎發展演算法的語意分析,能夠分析非結構化的資訊,像是散文、小說等較無固定格式的文本,加深文本分析的廣度,同時納入圖片、影音各種非結構化資料所能提供的資訊。

-----廣告,請繼續往下閱讀-----

假設你現在想查詢一個新聞事件,並分析網友、鄉民的看法,最直覺的方式便是利用 Google 進行關鍵字搜索,但這樣只能做到關鍵字比對,如此一來搜索出的資料將有幾百萬、幾千萬之譜,該如何進行整理、重點摘要?總不可能人工比對吧,這時,語意分析的優點便顯現出來了。楊立偉表示,語意分析透過爬梳大量網路資料,每日能夠搜索 60 億筆中文字詞,快速找出每日重要資訊。

2014 年 5 月時,越南發生排華暴動。楊立偉以當時分析越南地區的中文內容為例,除了字詞分析,也利用了情感分析。原先的文本內容大多為正面字詞,例如「建廠」、「投資」等等,但暴動當天開始出現許多負面字詞,例如「害怕」、「被砸」、「快跑」等等,情感分析的正負評比大為下滑。相對於傳統媒體可能是透過駐越記者或是當地新聞媒體報導才得知相關資訊,語意分析利用網路輿情觀察,足足快了十小時掌握新聞事件。

範例引導進行教學,機器學習增加準確率

楊立偉解釋,演算法為了能做到通篇分析,多採用機器學習的方式,就像教小孩念書,透過範例引導,結合答案輔助,電腦便能找出其中關聯。同時藉由資料庫的「語料」提供範例,輔以人工提供正確答案,電腦便能找出其中邏輯關係。

語意分析和關鍵字比對最大差異在於處理層級的不同。除了比對單詞外,它能以閱讀的概念進行分析,從前後文、段落乃至通篇文章進行分析。假設現在要分析「全家」便利商店的相關新聞,若以關鍵字比對,可能會抓出「全家一起玩」等無關字詞,但在語意分析下,此類句子會被過濾掉,只會抓出「全家推出新產品」等相關度較高的句子。

-----廣告,請繼續往下閱讀-----

回家功課寫錯了要訂正,那語意分析錯了也要訂正嗎?「對於機器學習來說,我們只要告訴機器這樣的結果好不好,透過多次嘗試,機器會將不好與好的結果都學習下來,進而進行更準確的運算。」

語意分析的多種應用

1. 自動摘要:手機滑到一篇有興趣的文章,卻嫌文章太長不想看?透過語意分析,能夠找出一篇文章的重要字詞、摘要,讓人能短時間快速瞭解內文。楊立偉說明,通篇文章中,機器會先挑出具有代表性、特殊意義的字詞,再找出相關字詞的句子、段落,將分析出的摘要列出來,最後以人工的方式給摘要打分,如此一來機器在多次嘗試學習下,高分的摘要會愈來愈多,藉此發展出自動摘要的應用程式。

2. 以文找文:語意分析能透過文章中的重要、關鍵字詞,進而並找出相關文章。例如 Google新聞把相關性、類似的文章聚集,便是利用語意分析的技術。

3. 廣告信偵測:以 Gmail 為例,語意分析能判斷一封信中是否包含廣告信的常用字詞,協助信箱進行篩選。有時雖然也會誤判,但長時間下來,全世界的使用者亦會幫忙修正,不斷累積下,判斷準確率也愈來愈高。

-----廣告,請繼續往下閱讀-----

4. 意見分析與情感分析:分析企業在網路上的口碑、評價。根據提到相關企業或產品的文章進行分析,篩選通篇文裡的正負面字詞,分析網友的觀點與情感。並透過通篇上下文,加強判斷正負面情緒的判讀。這項功能也能運用在企業客服中,偵測消費者的抱怨內容,轉介給適合處理的單位。

5. 寫作輔助:機器與人工能共同創作,協助文本效正。比如說台灣人若要以英文撰寫論文,語意分析便能幫助選詞、文法。

6. 電腦問答:如同 Siri,語意分析也能應用在人工智能對話,協助使用者利用問與答(Q&A)的方式找尋所需的資訊。

語意分析並非萬能,發展瓶頸和隱憂是?

語意分析並非百分百正確,目前仍多以機器學習的方式增加準確度,因此機器獲得的「語料」愈多愈好,也因此需要建立具大的資料庫,而系統的硬體設備也要有一定水準,才能快速進行分析。

-----廣告,請繼續往下閱讀-----

除了硬體條件,語意分析現階段也仍需要以人工評量系統,為機器所分析出來的結果給與回饋與改善建議。除了需要語言學家針對不同語系的慣用法進行審核,若遇到專業領域的文本、字詞,也需要請相關領域專家協助評量,這些都是現階段語意分析在人事上無法完全去除的因子。

「水能載舟,亦能覆舟。」語意分析同時也可能會被用於造假、偽造。楊立偉坦言,利用語意分析的演算法,許多人能夠設計出論文製造機等應用,雖然透過機器產生的論文或許可信度較低,但有心人仍能將其投稿到審查制度較寬鬆的學術期刊上,藉此奪得在學術期刊上發表的機會。

在隱私問題方面,楊立偉解釋,語意分析只會搜尋公開的貼文和訊息。以臉書為例,只有公開帳號的文章會被納入分析,包含熱門粉絲頁、意見領袖、公開的個人頁。目前台灣以中文為主的公開帳號約有六百萬個,都是語意分析的守備範圍。

災害通報、事件預防、預測,也是語意分析技術的努力目標,透過網友貼文,能夠在短時間內搜集大量的破碎訊息,組合成一完整資訊匯流,對於提供災害事件資訊、甚至是建立災害預測模型,都將大有助益。「現在大數據的一大挑戰在於資料都存在不同的地方,因此『匯集』的角色更為重要。」楊立偉強調,許多大數據都是在講單一企業的資料庫分析、應用,但真正重要的是跨企業、領域的資料整合,數據分析才能更兼顧深度與廣度。

-----廣告,請繼續往下閱讀-----

(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)

責任編輯:鄭國威

大數據專題報導系列:

  1. 資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震
  2. 運用海量資料讓機器「自學」,電腦將成為更好的決策代理人-專訪台大資工教授林守德
  3. 從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩
  4. 提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠
-----廣告,請繼續往下閱讀-----
文章難易度
陳妤寧
38 篇文章 ・ 1 位粉絲
熱愛將知識拆解為簡單易懂的文字,喜歡把一件事的正反觀點都挖出來思考,希望用社會科學的視角創造更宏觀的視野。