0

0
0

文字

分享

0
0
0

Google 搜尋預測、拼字檢查、與即時翻譯背後的統計模型:n-gram

活躍星系核_96
・2013/06/17 ・2112字 ・閱讀時間約 4 分鐘 ・SR值 537 ・八年級

文 / T.S.Yo

n-gram, the final frontier, 喔,不是,更正:是一種統計模型,源自於夏農Claude Shannon)的資訊理論information theory),而主要應用在「自然語言處理」(natural language processing)跟「基因序列分析」(genetic sequence analysis)的研究上。

馬可夫鏈與 n-gram

簡單的說,這個統計模型就是一種馬可夫模型Markov model)。好吧,我承認這樣講沒有比較簡單。馬可夫鏈,用白話說,就是同類型的事件(不同的狀態)依序發生的機率,舉例來說,假設天氣有三種狀態:「晴天」、「陰天」跟「雨天」。如果昨天是雨天,那麼今天是「雨天」的機率,會跟昨天是「晴天」而今天是「雨天」的機率有所不同,這是因為我們相信天氣現象在時間上有某種連續性,前面發生的狀態會影響到後面發生的狀態,而馬可夫模型就是描述這種前後關係的數學語言。

一個完整的馬可夫模型,需要列舉所有狀態的條件機率。以前面天氣的例子來說,就是要列舉出「今天是晴天,明天會是晴天、陰天、雨天各自的機率」,以及「今天是陰天」和「今天是雨天」而明天各會是三種天氣的機率,總共有九個。如果我們把天氣的分類分得更細,種類更多,那麼這個馬可夫模型就會變得更複雜。

然而,從邏輯上我們可以推測,「前天的天氣」可能影響到「昨天的天氣」,進而影響到「今天的天氣」以及「明天的天氣」,所以前面所提到的馬可夫鏈,其實是假設了「只有前一天的天氣會影響到之後的天氣,之前的都無關緊要」,這就是最簡單的「一階馬可夫鏈」。如果我們放寬了這個假設,把「前N天的天氣」都納入考慮,那麼就成了「N階馬可夫鏈」,這是也是馬可夫模型的複雜形態之一。

當然,數學模型描述的是抽象層次的符號,所以前面例子裏的「天氣」可以代換成其他任意「有前後關係」的序列(sequence),例如「文字」。

讓我們繼續拿「天氣」當作例子,不過這次講的是「天」跟「氣」的關係:當「天」這個字出現的時候,後面接著是「氣」這個字的機率是多少?相信說到這裏,有用過各種中文輸入法的人,大概都已經知道關於這種「關係」的知識應用到生活中的哪些地方了。而這種知識的基礎,「字頻」跟「詞頻」,也是構成 n-gram 模型的基礎。

中文的「字」是文字的最小單位,也就是 n=1 的狀況,稱作 unigram (uni 即「單一」),一種語言的「字頻」也就是該語言的 unigram model。從馬可夫鏈的角度來看,因為前後的關係項為零,這是一種「0 階馬可夫鏈」。

然後是「二字詞」,就像前面說的「天氣」,「天」後面接著各種字的機率,構成了 n=2 的狀況,bigram(bi 是「二」的字首),這也是一種一階馬可夫鏈:前一個狀態跟下一個狀態的關係。依此類推,我們可以進一步去建立 n=3,4,5… 的統計模型,而這些模型的集合,就是所謂的 n-gram 模型。

與傳統馬可夫模型不同的是,n-gram 裏每一個 gram 的可能狀態(在天氣的例子裏是「天氣類型」,在文字的例子理則是「字的種類」)通常很多,接近無限大。以前面的例子來看,我們可以把天氣分成簡單的幾類,但是中文裏的「字」,常用的就有 3000-5000 個,就算不計那些罕用字跟古字、自創字,要描述一個 5000×5000 = 兩千五百萬個機率的 bi-gram 模型也是一個不小的工程 。所幸的是,這兩千五百萬個機率有很多是接近於零的,例如:「美麗」這個詞出現的頻率很高,但是「美痢」可能就不會出現在任何地方(好吧,至少在這篇文章理出現過一次 XD)。因此, n-gram 模型不必詳述馬可夫模型裏的每個機率,有很多「不曾發生」的項目就直接以「趨近於零」來代表即可。

也由於這個特性,n-gram 模型相關的演算法和理論研究,很多都會特別處理這些「接近於零」的機率,讓整體的計算更加精確有效率。

n-gram 與 Google

如果從馬可夫鏈算起,n-gram 模型就不算是什麼非常新穎的概念,但其實際的應用卻可以說是跟隨著 Google 的成長而發揚光大。Google 在為所有的網頁編製目錄的同時,也統計了所有編目網頁裏的文字,形成一個非常大的 n-gram 模型,作為「搜尋」、「拼字檢查」、「翻譯」以及其他技術的基礎,同時 Google 也把他們統計出來的資料庫公佈在網路上,讓大眾免費使用。

Google 的翻譯演算法,跟傳統「查字典」的方法不同,而是依據 n-gram 的機率來推導,在某次公開的演講上,Google 的研發人員表示,這個方法效果本來一直都不佳,但是當 n-gram 資料庫大到某個程度時(more than billions of entries, 大於10億筆),翻譯的效果突然變得比傳統方法更精確。這也是這十年來「人工智能」由「規則」取向轉為「統計學習」取向的例子之一,「大量資料」和「高速計算」是在背後推動這項轉變的兩大動力。

雖然 n-gram 的發展與語言的應用息息相關,但是正如前面所說的,「數學處理的是抽象層次的問題」,因此近年來 n-gram 的技術也逐漸應用到其他不同類型的「序列」上。「音樂」是一個常見的應用:音階的前後關係,樂句的前後關係….等等,也都有人開始嘗試以 n-gram 模型來分析。

總之,統計模型的功用可以相當廣泛,Google 示範了 n-gram 的強大功能,相信未來還會有更多有趣的應用。

本文原發表於作者部落格Esse, of Something


數感宇宙探索課程,現正募資中!

相關標籤: Google翻譯 n-gram
文章難易度
活躍星系核_96
755 篇文章 ・ 90 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia


0

1
0

文字

分享

0
1
0

透過「生長激素刺激測驗」,評估孩童生長激素是否不足

careonline_96
・2022/05/19 ・1899字 ・閱讀時間約 3 分鐘

當孩童因「身高不足」或「生長遲緩」就診「兒童內分泌科」,醫師評估有「生長激素不足症」之疑慮時,會安排小朋友做「生長激素刺激測驗」。

究竟這是什麼樣的檢查呢?什麼時候需要做這個檢查?如何執行?這樣的檢查安全嗎? 以下由林口長庚醫院兒童內分泌科邱巧凡醫師,針對以上家長常見問題做完整說明。

生長激素刺激測驗——什麼時候要做?

  1. 「長的矮」而且「長的慢」!
    (1)長的矮: 身高落在該性別年齡「第三百分位」以下。
    (2)長的慢: 「一年長不到四公分」,或身高曲線往下掉兩大條百分位曲線。
  2. 初步檢查顯示: 骨齡明顯落後,血液檢驗 IGF-1 與 IGFBP-3 濃度不足。
  3. 伴隨其他生長激素不足可能合併的特徵(如前額凸出、顴骨發育不良、鼻梁塌陷、低血糖、陰莖短小、尿道下裂,或合併其他賀爾蒙異常等。)

當以上情形發生,醫師認為孩子有「生長激素缺乏症」的可能,將進一步安排「生長激素刺激測驗」。

生長激素刺激測驗——是什麼?

邱巧凡醫師指出,平常生長激素的分泌呈現「脈衝式分泌」,因此無法從隨機、單一次的血液檢測直接反映個體生長激素分泌的能力。生長激素刺激測驗是藉由藥物的刺激,營造出生長激素必須要分泌的情境,藉此情境來了解分泌的功能是否正常。

目前在台灣可用來做為生長激素刺激測驗的藥物包含:胰島素、clonidine、L-Dopa、Arginine 及 Glucagon。

生長激素刺激測驗——怎麼做?

  • 檢查前的準備
  1. 自檢查當天凌晨零時起「禁食」任何食物。
  2. 填寫「檢查同意書」。
  • 生長激素刺激測驗檢查流程
  1. 於早上 7~9 點,幫受檢兒童建立靜脈留置針(通常選擇上肢靜脈),並執行第一次的抽血,隨後給予受檢兒童檢查用之「口服藥物」或「靜脈注射藥物」。
  2. 之後約每隔 15 至 30 分鐘執行一次抽血,檢測生長激素濃度。(不同之檢測藥物,其抽血頻率與時間略有不同)
  3. 一次的「生長激素刺激測驗」檢查流程約 2~3 個小時完成,最後一次抽血完畢後,若身體無不適,便可移除靜脈留置針頭,完成檢查。並給孩童進食一頓大餐。

生長激素刺激測驗——安全嗎?

邱巧凡醫師說,生長激素刺激測驗執行過程,有可能發生以下狀況,須特別留意,因此在林口長庚醫院本檢查需住院執行,在專業醫療團隊照護下執行此測驗。

  1. 暈針: 由於需透過口服或靜脈注射藥物刺激生長激素分泌,加上得抽血數次,因此在兒童、青少年族群有可能因為心理壓力與恐懼感,在測驗過程中出現眩暈與噁心等暈針症狀。通常只要休息一段時間即可恢復,也不會因此產生後遺症。
  2. 測驗藥物的作用: 檢查期間所服用或注射的藥物,會造成血糖偏低、血壓偏低,可能出現口乾、頭痛、冒冷汗、臉色蒼白、嗜睡、疲倦、頭暈、噁心、嘔吐等症狀。一般只要適度休息,並於檢查後進食即可逐漸恢復。少數有特殊病史的孩童(如癲癇、腦瘤等)可能在此過程出現抽搐發作等狀況。

生長激素刺激測驗——檢查注意事項

  1. 自檢查當天凌晨零時起,至檢查流程完畢,期間禁止飲食,否則會影響檢查結果的準確性。 
  2. 抽血期間如出現頭暈、噁心、臉色蒼白、抽搐、意識不清等情況,請立即告知醫護團隊。
  3. 檢查期間應坐在椅子上或臥床休息,儘量不要起身走動。

生長激素刺激測驗——檢查結果

檢查結果醫師將針對患童本身狀況與兩項不同藥物刺激後的生長激素分泌能力進行判讀,若判斷為「生長激素缺乏症」,將進一步安排「腦部核磁共振檢查」以釐清生長激素缺乏的可能原因,並衡量「生長激素治療」的適當性與時機,與家長進行說明與討論。


數感宇宙探索課程,現正募資中!

careonline_96
9 篇文章 ・ 7 位粉絲
台灣最大醫療入口網站