0

0
0

文字

分享

0
0
0

Google 搜尋預測、拼字檢查、與即時翻譯背後的統計模型:n-gram

活躍星系核_96
・2013/06/17 ・2112字 ・閱讀時間約 4 分鐘 ・SR值 537 ・八年級

-----廣告,請繼續往下閱讀-----

文 / T.S.Yo

n-gram, the final frontier, 喔,不是,更正:是一種統計模型,源自於夏農Claude Shannon)的資訊理論information theory),而主要應用在「自然語言處理」(natural language processing)跟「基因序列分析」(genetic sequence analysis)的研究上。

馬可夫鏈與 n-gram

簡單的說,這個統計模型就是一種馬可夫模型Markov model)。好吧,我承認這樣講沒有比較簡單。馬可夫鏈,用白話說,就是同類型的事件(不同的狀態)依序發生的機率,舉例來說,假設天氣有三種狀態:「晴天」、「陰天」跟「雨天」。如果昨天是雨天,那麼今天是「雨天」的機率,會跟昨天是「晴天」而今天是「雨天」的機率有所不同,這是因為我們相信天氣現象在時間上有某種連續性,前面發生的狀態會影響到後面發生的狀態,而馬可夫模型就是描述這種前後關係的數學語言。

一個完整的馬可夫模型,需要列舉所有狀態的條件機率。以前面天氣的例子來說,就是要列舉出「今天是晴天,明天會是晴天、陰天、雨天各自的機率」,以及「今天是陰天」和「今天是雨天」而明天各會是三種天氣的機率,總共有九個。如果我們把天氣的分類分得更細,種類更多,那麼這個馬可夫模型就會變得更複雜。

然而,從邏輯上我們可以推測,「前天的天氣」可能影響到「昨天的天氣」,進而影響到「今天的天氣」以及「明天的天氣」,所以前面所提到的馬可夫鏈,其實是假設了「只有前一天的天氣會影響到之後的天氣,之前的都無關緊要」,這就是最簡單的「一階馬可夫鏈」。如果我們放寬了這個假設,把「前N天的天氣」都納入考慮,那麼就成了「N階馬可夫鏈」,這是也是馬可夫模型的複雜形態之一。

-----廣告,請繼續往下閱讀-----

當然,數學模型描述的是抽象層次的符號,所以前面例子裏的「天氣」可以代換成其他任意「有前後關係」的序列(sequence),例如「文字」。

讓我們繼續拿「天氣」當作例子,不過這次講的是「天」跟「氣」的關係:當「天」這個字出現的時候,後面接著是「氣」這個字的機率是多少?相信說到這裏,有用過各種中文輸入法的人,大概都已經知道關於這種「關係」的知識應用到生活中的哪些地方了。而這種知識的基礎,「字頻」跟「詞頻」,也是構成 n-gram 模型的基礎。

中文的「字」是文字的最小單位,也就是 n=1 的狀況,稱作 unigram (uni 即「單一」),一種語言的「字頻」也就是該語言的 unigram model。從馬可夫鏈的角度來看,因為前後的關係項為零,這是一種「0 階馬可夫鏈」。

然後是「二字詞」,就像前面說的「天氣」,「天」後面接著各種字的機率,構成了 n=2 的狀況,bigram(bi 是「二」的字首),這也是一種一階馬可夫鏈:前一個狀態跟下一個狀態的關係。依此類推,我們可以進一步去建立 n=3,4,5… 的統計模型,而這些模型的集合,就是所謂的 n-gram 模型。

-----廣告,請繼續往下閱讀-----

與傳統馬可夫模型不同的是,n-gram 裏每一個 gram 的可能狀態(在天氣的例子裏是「天氣類型」,在文字的例子理則是「字的種類」)通常很多,接近無限大。以前面的例子來看,我們可以把天氣分成簡單的幾類,但是中文裏的「字」,常用的就有 3000-5000 個,就算不計那些罕用字跟古字、自創字,要描述一個 5000×5000 = 兩千五百萬個機率的 bi-gram 模型也是一個不小的工程 。所幸的是,這兩千五百萬個機率有很多是接近於零的,例如:「美麗」這個詞出現的頻率很高,但是「美痢」可能就不會出現在任何地方(好吧,至少在這篇文章理出現過一次 XD)。因此, n-gram 模型不必詳述馬可夫模型裏的每個機率,有很多「不曾發生」的項目就直接以「趨近於零」來代表即可。

也由於這個特性,n-gram 模型相關的演算法和理論研究,很多都會特別處理這些「接近於零」的機率,讓整體的計算更加精確有效率。

n-gram 與 Google

如果從馬可夫鏈算起,n-gram 模型就不算是什麼非常新穎的概念,但其實際的應用卻可以說是跟隨著 Google 的成長而發揚光大。Google 在為所有的網頁編製目錄的同時,也統計了所有編目網頁裏的文字,形成一個非常大的 n-gram 模型,作為「搜尋」、「拼字檢查」、「翻譯」以及其他技術的基礎,同時 Google 也把他們統計出來的資料庫公佈在網路上,讓大眾免費使用。

Google 的翻譯演算法,跟傳統「查字典」的方法不同,而是依據 n-gram 的機率來推導,在某次公開的演講上,Google 的研發人員表示,這個方法效果本來一直都不佳,但是當 n-gram 資料庫大到某個程度時(more than billions of entries, 大於10億筆),翻譯的效果突然變得比傳統方法更精確。這也是這十年來「人工智能」由「規則」取向轉為「統計學習」取向的例子之一,「大量資料」和「高速計算」是在背後推動這項轉變的兩大動力。

-----廣告,請繼續往下閱讀-----

雖然 n-gram 的發展與語言的應用息息相關,但是正如前面所說的,「數學處理的是抽象層次的問題」,因此近年來 n-gram 的技術也逐漸應用到其他不同類型的「序列」上。「音樂」是一個常見的應用:音階的前後關係,樂句的前後關係….等等,也都有人開始嘗試以 n-gram 模型來分析。

總之,統計模型的功用可以相當廣泛,Google 示範了 n-gram 的強大功能,相信未來還會有更多有趣的應用。

本文原發表於作者部落格Esse, of Something

-----廣告,請繼續往下閱讀-----
文章難易度
活躍星系核_96
778 篇文章 ・ 128 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

0
0

文字

分享

0
0
0
肺癌不只是抽菸惹禍!PM2.5、油煙、腸道菌失衡全都中,TW01 益生菌提升肺部保護力!
鳥苷三磷酸 (PanSci Promo)_96
・2025/05/07 ・2808字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

本文與 江欣樺營養師 合作,泛科學企劃執行。

肺癌連四冠 成為台灣十大癌症之首的背後原因

根據衛福部國民健康署於 2024 年 12 月公布的最新數據,肺癌已穩居台灣十大癌症榜首。這不只是發生人數最高,更同時擁有死亡率最高、晚期發現比例最高、醫療費用最高等三項不名譽的紀錄,可說是名副其實的「癌症四冠王」。

肺癌不只是台灣十大癌症榜首,更同時是發生人數最高、死亡率最高、晚期發現比例最高、醫療費用最高的疾病。圖 / unsplash

肺癌新確診人數在過去十年中持續上升,尤其在 2022 年 7 月政府推動肺癌篩檢政策後,越來越多過去未被發現的病例被篩檢出來。這項針對高風險族群的篩檢措施,有助於提高早期發現的比例,但也凸顯出台灣肺癌潛藏病例數量之大。

過去,大腸直腸癌曾長期穩居癌症發生率第一位,如今退居第二位,仍值得高度關注。不過,肺癌的快速上升與普及化趨勢,則反映出不僅吸菸者受影響,越來越多不吸菸卻罹患肺癌的人也在增加,使得肺癌防治策略面臨新的挑戰。

-----廣告,請繼續往下閱讀-----

基因變異遇上空污 PM2.5:台灣肺癌高發生率的雙重危機

在肺癌逐年升溫的背後,科學家持續探究其背後的成因。其中,一篇刊登於《Cell》2020 年 7 月號的研究引起了國際關注。這項研究由中央研究院團隊主導,聯合臺灣大學、臺北醫學大學及臺中榮總等單位共同完成,發現一種名為「APOBEC 變異」的基因特徵,可能與臺灣女性罹患肺癌發生率偏高有關。該變異會影響細胞內 DNA 的穩定性,使其更容易累積損傷並進一步發展為癌症,這項研究也讓人們開始重新思考肺癌與遺傳體質之間的關聯性。

除了基因之外,環境因素依然是不可忽視的關鍵。2023 年 4 月《Nature》的一篇封面故事則指出,空氣污染對肺癌的影響,可能不是直接造成新的 DNA 突變,而是透過誘發「慢性發炎」的機制,促使原本已帶有變異的細胞被「喚醒」並增殖形成腫瘤。這如同將原本處於沉睡狀態的壞細胞,因長期的空氣污染刺激而被激活。

由此可見,預防癌症的策略或許不應僅著重於防止癌細胞的「產生」,更重要的是避免讓它們「活化」。這也代表預防策略的重點,正從過去單純的「避免基因突變」,轉向同時「減少發炎反應」。而導致這些發炎與突變的因素,其實仍然是我們熟悉的環境污染源,例如 PM2.5、香菸二手煙、油煙與室內空氣品質等。

值得注意的是,這種風險機制並不只侷限於肺癌。大腸直腸癌的發生同樣與基因變異及環境因子的交互作用密切相關,顯示癌症成因不再是單一來源,而是多層次、需整合多面向來防範的健康議題。

-----廣告,請繼續往下閱讀-----

遠離肺部發炎:從廚房油煙到腸道保健的肺癌預防關鍵

在空氣品質頻頻亮紅燈的臺灣,要保護肺部健康,關鍵就在於避開引發發炎反應的因子。國民健康署明確指出,「吸菸」仍是肺癌最主要的危險因子,佔所有患者的七至八成。然而,非吸菸者也絕不能掉以輕心,二手菸、交通廢氣、PM2.5 等空氣污染物,同樣是導致肺部慢性發炎的重要元凶。

肺癌元凶不只有吸菸,空污也是一大原因。圖 / unsplash

此外,有一項常被忽略卻與肺癌風險高度相關的危險因子,來自我們每天的廚房——烹飪油煙。國民健康署指出,臺灣女性長期暴露於烹飪油煙中,罹患肺癌的風險不容忽視,尤其是在長時間未使用抽油煙機的情況下。國民健康署指出,未使用抽油煙機的非吸菸女性,其肺癌風險竟比有使用者高出約8.3倍。這項數據提醒我們,日常看似平常的行為,可能正是健康風險的關鍵所在。

除了遠離風險因子,江欣樺營養師也提出,從「腸道」著手是提升免疫力、降低全身發炎反應的新方向。維持腸道健康不僅能調節整體免疫系統,更與肺部的發炎反應息息相關。以益生菌株 TW01 為例,研究指出它能有效抵達腸道內的免疫關鍵區域——貝爾斑(Peyer’s patch),調節 T 細胞中 TH1 與 TH2 的平衡,有助於緩解過度的免疫反應或過敏現象。

此外,TW01 菌株也能促進B細胞分泌 IgA 免疫球蛋白,強化腸道黏膜層的保護力,減少「腸漏」的發生,進而間接保護其他器官免受炎症的侵擾。更令人關注的是,該菌株亦在研究中展現抑制大腸癌細胞的潛力,對於目前台灣排名第二的大腸直腸癌,可能提供另一層預防上的助力。

-----廣告,請繼續往下閱讀-----
國民健康署指出,未使用抽油煙機的非吸菸女性,其肺癌風險竟比有使用者高出約8.3倍。圖 / shutterstock

TW01 益生菌對抗肺癌:從腸-肺軸線降低空污引發的肺損傷

腸道與肺部之間存在一條重要的生理連結,稱為「腸-肺軸線」。今年初發表於《Nutrients》期刊的一項臺灣研究指出,TW01 益生菌能透過腸-肺軸線機制,從腸道出發,間接守護我們的肺部健康。研究結果顯示,TW01 益生菌有三大關鍵作用:首先,有助於減輕空污 PM2.5 所造成的肺損傷;其次,可降低肺部發炎物質(如 TNF-α、IL-6、IL-10 等);第三,降低肺纖維化,主要透過調節 TGF-β1/Smad 信號傳導來達成。

其實,腸道與其他器官之間也存在類似的「軸線」關係,例如腸-腦軸線影響情緒與睡眠,腸-皮膚軸線與皮膚狀況密切相關。這些軸線代表著腸道菌叢的健康與代謝活動,很容易影響到其他器官。反過來,器官之間的影響同樣是雙向的——空污中的 PM2.5 不只損害肺部,也會擾亂腸道菌相,甚至引發「腸漏症」,讓體內毒素再次回到肺部,進一步惡化發炎反應。

預防肺癌、對抗 PM2.5,從 TW01 益生菌構築更健康的防線

面對癌症這個複雜的敵人,我們或許無法改變基因,但我們可以從每天的選擇中,建立更堅固的健康防線。越來越多研究顯示,身體各個器官並非獨立運作,而是彼此緊密串聯——肺與腸的關聯,正是一個明顯的例子。從腸道微生物的平衡,到肺部的免疫狀態,生活中的每一項小習慣,其實都可能悄悄影響著我們罹癌的風險。

空氣品質意識、健康飲食內容、規律運動習慣、定期健康檢查,這些看似平凡的日常行為,正是最切實且有效的預防行動。特別在台灣,肺癌與大腸癌長期高居發生率前兩名,更提醒我們——預防不能等到症狀出現才開始,而應該從日常做起。

-----廣告,請繼續往下閱讀-----

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。