文字

繁 | 简

活得科學科學傳播科技能源

Google 搜尋預測、拼字檢查、與即時翻譯背後的統計模型：n-gram

活躍星系核・2013/06/17 ・2112字・閱讀時間約 4 分鐘・SR值 537

・八年級

相關標籤：

熱門標籤：

文 / T.S.Yo

n-gram, the final frontier, 喔，不是，更正：是一種統計模型，源自於夏農（Claude Shannon）的資訊理論（information theory），而主要應用在「自然語言處理」（natural language processing）跟「基因序列分析」（genetic sequence analysis）的研究上。

馬可夫鏈與 n-gram

簡單的說，這個統計模型就是一種馬可夫模型（Markov model）。好吧，我承認這樣講沒有比較簡單。馬可夫鏈，用白話說，就是同類型的事件（不同的狀態）依序發生的機率，舉例來說，假設天氣有三種狀態：「晴天」、「陰天」跟「雨天」。如果昨天是雨天，那麼今天是「雨天」的機率，會跟昨天是「晴天」而今天是「雨天」的機率有所不同，這是因為我們相信天氣現象在時間上有某種連續性，前面發生的狀態會影響到後面發生的狀態，而馬可夫模型就是描述這種前後關係的數學語言。

一個完整的馬可夫模型，需要列舉所有狀態的條件機率。以前面天氣的例子來說，就是要列舉出「今天是晴天，明天會是晴天、陰天、雨天各自的機率」，以及「今天是陰天」和「今天是雨天」而明天各會是三種天氣的機率，總共有九個。如果我們把天氣的分類分得更細，種類更多，那麼這個馬可夫模型就會變得更複雜。

然而，從邏輯上我們可以推測，「前天的天氣」可能影響到「昨天的天氣」，進而影響到「今天的天氣」以及「明天的天氣」，所以前面所提到的馬可夫鏈，其實是假設了「只有前一天的天氣會影響到之後的天氣，之前的都無關緊要」，這就是最簡單的「一階馬可夫鏈」。如果我們放寬了這個假設，把「前Ｎ天的天氣」都納入考慮，那麼就成了「Ｎ階馬可夫鏈」，這是也是馬可夫模型的複雜形態之一。

-----廣告，請繼續往下閱讀-----

當然，數學模型描述的是抽象層次的符號，所以前面例子裏的「天氣」可以代換成其他任意「有前後關係」的序列（sequence），例如「文字」。

讓我們繼續拿「天氣」當作例子，不過這次講的是「天」跟「氣」的關係：當「天」這個字出現的時候，後面接著是「氣」這個字的機率是多少？相信說到這裏，有用過各種中文輸入法的人，大概都已經知道關於這種「關係」的知識應用到生活中的哪些地方了。而這種知識的基礎，「字頻」跟「詞頻」，也是構成 n-gram 模型的基礎。

中文的「字」是文字的最小單位，也就是 n=1 的狀況，稱作 unigram （uni 即「單一」），一種語言的「字頻」也就是該語言的 unigram model。從馬可夫鏈的角度來看，因為前後的關係項為零，這是一種「0 階馬可夫鏈」。

然後是「二字詞」，就像前面說的「天氣」，「天」後面接著各種字的機率，構成了 n=2 的狀況，bigram（bi 是「二」的字首），這也是一種一階馬可夫鏈：前一個狀態跟下一個狀態的關係。依此類推，我們可以進一步去建立 n=3,4,5… 的統計模型，而這些模型的集合，就是所謂的 n-gram 模型。

-----廣告，請繼續往下閱讀-----

與傳統馬可夫模型不同的是，n-gram 裏每一個 gram 的可能狀態（在天氣的例子裏是「天氣類型」，在文字的例子理則是「字的種類」）通常很多，接近無限大。以前面的例子來看，我們可以把天氣分成簡單的幾類，但是中文裏的「字」，常用的就有 3000-5000 個，就算不計那些罕用字跟古字、自創字，要描述一個 5000×5000 = 兩千五百萬個機率的 bi-gram 模型也是一個不小的工程。所幸的是，這兩千五百萬個機率有很多是接近於零的，例如：「美麗」這個詞出現的頻率很高，但是「美痢」可能就不會出現在任何地方（好吧，至少在這篇文章理出現過一次 XD）。因此， n-gram 模型不必詳述馬可夫模型裏的每個機率，有很多「不曾發生」的項目就直接以「趨近於零」來代表即可。

也由於這個特性，n-gram 模型相關的演算法和理論研究，很多都會特別處理這些「接近於零」的機率，讓整體的計算更加精確有效率。

n-gram 與 Google

如果從馬可夫鏈算起，n-gram 模型就不算是什麼非常新穎的概念，但其實際的應用卻可以說是跟隨著 Google 的成長而發揚光大。Google 在為所有的網頁編製目錄的同時，也統計了所有編目網頁裏的文字，形成一個非常大的 n-gram 模型，作為「搜尋」、「拼字檢查」、「翻譯」以及其他技術的基礎，同時 Google 也把他們統計出來的資料庫公佈在網路上，讓大眾免費使用。

Google 的翻譯演算法，跟傳統「查字典」的方法不同，而是依據 n-gram 的機率來推導，在某次公開的演講上，Google 的研發人員表示，這個方法效果本來一直都不佳，但是當 n-gram 資料庫大到某個程度時（more than billions of entries, 大於10億筆），翻譯的效果突然變得比傳統方法更精確。這也是這十年來「人工智能」由「規則」取向轉為「統計學習」取向的例子之一，「大量資料」和「高速計算」是在背後推動這項轉變的兩大動力。

-----廣告，請繼續往下閱讀-----

雖然 n-gram 的發展與語言的應用息息相關，但是正如前面所說的，「數學處理的是抽象層次的問題」，因此近年來 n-gram 的技術也逐漸應用到其他不同類型的「序列」上。「音樂」是一個常見的應用：音階的前後關係，樂句的前後關係….等等，也都有人開始嘗試以 n-gram 模型來分析。

總之，統計模型的功用可以相當廣泛，Google 示範了 n-gram 的強大功能，相信未來還會有更多有趣的應用。

本文原發表於作者部落格Esse, of Something

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 0

登入與大家一起討論

活躍星系核

776 篇文章・ 130 位粉絲

活躍星系核（active galactic nucleus, AGN）是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍，在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。本帳號發表來自各方的投稿。附有資料出處的科學好文，都歡迎你來投稿喔。 Email: contact@pansci.asia

TRENDING 熱門討論

即時熱門

1 2026/04/24

1 2026/04/04

2 2026/04/04

幫助孩子更專注、反應快，家長要如何調理，改善分心與提升學習效率？張若偉中醫師解析

文字

為什麼越累越難睡?當大腦想下班，「腸道」卻還在加班！

鳥苷三磷酸 (PanSci Promo) ・2026/04/30 ・2519字・閱讀時間約 5 分鐘

相關標籤：

熱門標籤：

本文與益福生醫合作，泛科學企劃執行

昨晚，你又在床上翻來覆去、無法入眠了嗎？這或許是現代社會最普遍的深夜共鳴。儘管換了昂貴的乳膠枕、拉上百分之百遮光的窗簾，甚至在腦海中數了幾百隻羊，大腦的那個「睡眠開關」卻彷彿生鏽般卡住。這種渴望休息卻睡不著的過程，讓失眠成了一場耗損身心的極限馬拉松。

皮質醇：你體內那位「永不熄滅」的深夜警報器

要理解失眠，我們得先認識身體的一套精密防衛系統：下視丘-垂體-腎上腺軸（HPA axis） 。這套系統原本是演化給我們的禮物，讓我們在面對劍齒虎或突如其來的危險時，能迅速進入「戰鬥或快逃」的備戰狀態。當這套系統啟動，腎上腺就會分泌皮質醇 (壓力荷爾蒙)，這種荷爾蒙能調動能量、提高警覺性，讓我們在危機中保持清醒。

然而，現代人的「劍齒虎」不再是野獸，而是無止盡的專案進度、電子郵件與職場競爭。對於長期處於高壓或高強度工作環境的人們來說，身體的警報系統可能處於一種「切換不掉」的狀態。

-----廣告，請繼續往下閱讀-----

在理想的狀態下，人類的生理時鐘像是一場精確的接力賽。入夜後，身體會進入「修復模式」，此時壓力荷爾蒙「皮質醇」的濃度應該降至最低點，讓「睡眠荷爾蒙」褪黑激素（Melatonin）接棒主導。褪黑激素不僅負責傳遞「天黑了」的訊號，它還能抑制腦中負責維持清醒的食慾素（Orexin）神經元，幫助大腦順利關閉覺醒開關。

對於長期處於高壓或高強度工作環境的人們來說，身體的警報系統可能處於一種「切換不掉」的狀態 / 圖片來源：envato

然而，當壓力介入時，這場接力賽就會變成跑不完的馬拉松賽。研究指出，長期的高壓環境會導致 HPA 軸過度活化，使得夜間皮質醇異常分泌。這不僅會抑制褪黑激素的分泌，更會讓食慾素在深夜裡持續活化，強迫大腦維持在「高覺醒狀態（Hyperarousal）」。這種令人崩潰的狀態就是，明明你已經累到不行，但大腦卻像停不下來的發電機！

長期的睡眠不足會導致體內促發炎細胞激素上升，而發炎反應又會進一步活化 HPA 軸，分泌更多皮質醇來試圖消炎，高濃度的皮質醇會進一步干擾深層睡眠與快速動眼期（REM），導致睡眠品質變得低弱又破碎，最終形成「壓力－發炎－失眠」的惡行循環。也就是說，你不是在跟睡眠上的意志力作對，而是在跟失控的生理長期鬥爭。

從腸道重啟好眠開關：PS150 菌株如何調校你的生理時鐘

面對這種煞車失靈的失眠困局，科學家們將目光投向了人體內另一個繁榮的生態系：腸道。腸道與大腦之間存在著一條雙向通訊的高速公路，這就是「菌-腸-腦軸 (Microbiome-Gut-Brain Axis, MGBA)」，而某些特殊菌株不僅能幫助消化、排便，更能透過神經與內分泌途徑與大腦對話，直接參與調節我們的壓力調節與睡眠節律。這種菌株被科學家稱為「精神益生菌」（Psychobiotics）。

-----廣告，請繼續往下閱讀-----

腸道與大腦之間存在著一條雙向通訊的高速公路，這就是「菌-腸-腦軸 (Microbiome-Gut-Brain Axis, MGBA)」/圖片來源：益福生醫

在眾多研究菌株中，發酵乳桿菌 Limosilactobacillus fermentum PS150 的表現格外引人注目。PS150菌株源於亞洲益生菌權威「蔡英傑教授」團隊的專業研發，累積多年功能性菌株研發經驗的科學成果。針對臨床常見的「初夜效應」（First Night Effect, FNE），也就是現代人因出差、換床或環境改變導致的入睡困難，俗稱認床。科學家在進行實驗時發現，補充 PS150 菌株能顯著恢復非快速動眼期（NREM）的睡眠長度，且入睡更快，起床後也更容易清醒。更重要的是，不同於常見的藥物助眠手段（如抗組織胺藥物 DIPH）容易造成快速動眼期（REM）剝奪或導致睡眠破碎化，PS150 菌株展現出一種更為「溫和且自然」的調節力，它能有效縮短入睡所需的時間，並恢復睡眠中代表深層修復的「Delta 波」能量。

科學家發現，即便將 PS150 菌株經過特殊的熱處理（Heat-treated），轉化為不具活性但保有關鍵成分的「後生元」（Postbiotics），其生物活性依然能與活菌媲美。HT-PS150 技術解決了益生菌在儲存與攝取過程中容易失去活性的痛點，讓這些腸道通訊員能更穩定地發揮作用。

在臨床實驗中，科學家觀察到一個耐人尋味的現象：當詢問受試者的主觀感受時，往往會遇到強大的「安慰劑效應」，無論是服用 HT-PS150 還是安慰劑的人，主觀上大多表示睡眠變好了。這種「體感上的進步」有時會掩蓋真相，讓人分不清是心理作用還是真實效益。

然而，客觀的生理數據（Biomarkers）卻揭開了關鍵的差異。在排除主觀偏誤後，實驗數據顯示 HT-PS150 組有更高比例的人（84.6%）出現了夜間褪黑激素分泌增加，且壓力荷爾蒙（皮質醇）顯著下降，這證明了菌株確實啟動了體內的睡眠調控系統，而不僅僅是心理安慰。

-----廣告，請繼續往下閱讀-----

最值得關注的是，對於那些失眠指數較高（ISI ≧ 8）的族群，這種「生理修復」與「主觀體感」終於達成了一致。這群人在補充 HT-PS150 後，不僅生理標記改善，連原本嚴重困擾的主觀睡眠效率、持續時間，以及焦慮感也出現了顯著的進步。

了解更多PS150助眠益生菌：https://lihi3.me/KQ4zi

重新定義深層睡眠：構建全方位的深夜修復計畫

睡眠從來就不只是單純的休息，而是一場生理功能的全面重整。想要重獲高品質的睡眠，關鍵在於為自己建立一個全方位的修復生態系。

這套系統的基石，始於良好的生活習慣。從減少睡前數位螢幕的干擾、優化室內環境，到作息調整。當我們透過規律作息來穩定神經系統，並輔以現代科學對於 PS150 菌株的調節力發現，身體便能更順暢地啟動睡眠開關，回歸自然的運作節律。

-----廣告，請繼續往下閱讀-----

與其將失眠視為意志力的抗爭，不如將其看作是生理機能與腸道微生態的深度溝通。透過生活作息的調整與科學實證的支持，每個人都能擁有掌控睡眠的主動權。現在就從優化生活型態開始，為自己按下那個久違的、如嬰兒般香甜的關機鍵吧。

與其將失眠視為意志力的抗爭，不如將其看作是生理機能與腸道微生態的深度溝通 / 圖片來源 : envato

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)

247 篇文章・ 319 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

1 2026/04/24

1 2026/04/04

2 2026/04/04

104

文字

104

肺部為何會「結疤」？揭開比癌症更致命的「菜瓜布肺」，科學家如何找到破解惡性循環的新契機

鳥苷三磷酸 (PanSci Promo) ・2026/05/08 ・2041字・閱讀時間約 4 分鐘

相關標籤：

熱門標籤：

本文由肺纖維化(菜瓜布肺)社團衛教合作，泛科學撰文

在現代醫學的警示清單裡，乳癌、大腸癌這些疾病大家都不陌生；但有一個「隱蔽且致命」的威脅卻常被忽視，那就是「肺纖維化」。其中最常見的類型「特發性肺纖維化」（IPF），其預後往往不太樂觀，確診後的五年存活率甚至比許多常見的癌症還低。

首先，我們得先破解一個迷思：肺纖維化並不是單一疾病，而是許多種間質性肺病的共同表現。當我們聽到「肺纖維化」，腦中常浮現「菜瓜布肺」的形象，患者的肺部外觀充滿一個個空洞與疤痕，像極了乾燥的絲瓜。這精準描繪了肺部組織逐漸硬化、失去彈性的過程。

更重要的是，IPF 這類肺纖維化的威脅在於「不可逆」的特性，一旦形成就很難逆轉。這跟部分 COVID-19 康復者身上、仍有機會復原的肺纖維化，是兩種完全不同的概念。

-----廣告，請繼續往下閱讀-----

IPF 這類肺纖維化的威脅在於「不可逆」的特性，一旦形成就很難逆轉 / 圖示來源：shutterstock

肺部為何會變成「菜瓜布」？

為什麼好端端的肺會變成菜瓜布？這其實是一場身體修復機制失控的結果。

「纖維化」的組織，就是肺部間質組織（interstitium）的疤痕化。間質是圍繞在肺泡周圍，包含血管與支持肺部結構的結締組織。在正常情況下，肺部損傷後會啟動修復機制，並再生健康組織。但在肺纖維化的患者體內，這套修復機制卻「當機」了。

身體會不斷地發出訊號，導致負責修復工作的「纖維母細胞」（fibroblasts）被過度活化，進而失控地沉積膠原蛋白疤痕組織，最終在肺部形成永久性的纖維化。

科學家發現，這個過程之所以棘手，在於它是一個「惡性循環」，肺部同時存在著「發炎反應」與「纖維化」這兩條路徑，它們相互加乘，演變成難以阻斷的強大破壞力。

-----廣告，請繼續往下閱讀-----

雖然特發性肺纖維化 (IPF) 的具體成因不明，但已知某些特定族群的風險更高。例如抽菸，特定年齡與性別(50歲以上男性)、長期暴露於粉塵環境的工作者(農業、畜牧業、採礦業…)、胃食道逆流者。此外，患有自體免疫疾病（如類風濕性關節炎、乾燥症、硬皮症、皮肌炎/多發性肌炎，）的患者，他們併發肺纖維化的機率遠高於一般人，必須特別警覺。

雖然特發性肺纖維化 (IPF) 的具體成因不明，但已知某些特定族群的風險更高。/ 圖示來源：shutterstock

打斷惡性循環的挑戰，為何只對抗「纖維化」還不夠？

面對這個不可逆的疾病，醫學界長年束手無策，直到 2014 年才迎來一道曙光。美國 FDA 批准了兩種機制不同的新藥：Nintedanib 和 Pirfenidone。這兩種藥物的出現是治療史上的分水嶺，首度被證實能夠「延緩」IPF 患者肺功能的惡化速度。

然而，這場戰役尚未結束。現有的治療雖然帶來了希望，卻也凸顯了「未被滿足的醫療需求」。從機制上來看，這些藥物主要抑制的是「纖維化路徑」。

這讓科學界開始思考這個未被滿足的棘手問題：既然疾病的本質是「發炎」與「纖維化」的雙重打擊，那麼，我們是否能找到「同時抑制」這兩條路徑的全新策略，從而更有效地打斷這個惡性循環？

-----廣告，請繼續往下閱讀-----

找到同時調控「發炎」與「纖維化」的新靶點

為了解決難題，科學家將目光鎖定在一個細胞內的酵素：磷酸二酯酶 4B（PDE4B）。

為什麼鎖定它？讓我們看看它的「雙重作用」機制：

關鍵位置： PDE4B 同時存在於免疫細胞（與發炎有關）與纖維母細胞（與纖維化有關）當中。
作用機制： PDE4B 的主要工作是降解細胞內一種叫 cAMP（環磷酸腺苷） 的訊號分子。cAMP 可以被視為細胞內的「穩定信號」。
雙重抑制： 當我們使用藥物抑制了 PDE4B 的活性，細胞內的 cAMP 就不會被分解，濃度會隨之升高。高濃度的 cAMP 能穩定免疫細胞和纖維母細胞，同時產生抗發炎與抗纖維化的雙重效應。

簡單來說，鎖定並抑制 PDE4B，就像是同時抑制了免疫風暴與纖維化的工程，有望從雙從抑制打擊這個惡性循環。