2

8
0

文字

分享

2
8
0

別意外!Google 真的聽得懂「人話」:BERT 自然語意演算法如何提升關鍵字理解能力?

Abby T
・2021/10/12 ・3416字 ・閱讀時間約 7 分鐘

打開搜尋引擎,不知道要輸入什麼用詞才能找到需要的資訊?例如,明明心中的疑問是「今天會下雨嗎?」,但打開Google搜尋,輸入的關鍵字卻是「本日 降雨機率」。

為了要讓搜尋引擎理解問題,大多數的人在使用 Google 搜尋時往往會捨棄口語用詞,改為輸入幾個簡單的關鍵字,久而久之已變成一種慣用的搜尋習慣。好像不那麼做,Google 會看不懂關鍵字,也就無法順利搜尋到需要的資訊。

但看看「Google 助理向美髮沙龍預約剪髮」的實際對話影片,可以發現 Google 其實有能力理解口語對話,還能像人類一樣回覆流利答覆,而這樣的能力也能在 2019 年「BERT 自然語意演算法」推出後,使用 Google 搜尋查找資訊時獲得類似的經驗。 

號稱能理解人類語言的 BERT 演算法

BERT 演算法有個繞口又深奧的全名:Bidirectional Encoder Representations from Transformers,翻成中文的字面意思還是很難理解。

-----廣告,請繼續往下閱讀-----

但簡單來說,它能幫助電腦更理解人類的語言。若應用在搜尋引擎方面,它能夠仔細辨識搜尋字串的「每個字」,再根據前後字詞的關係(上下文)去讀懂整個搜尋字串要表達的意思,而且與以往只擇一比對前一或後一個字詞不同的是,BERT 演算法是將前、後字詞都納入判斷語意的參考,所以能更精確判斷使用者搜尋該字串的意圖/目的。

BERT 演算法剛推出時,在美國地區、使用英文搜尋時的搜尋結果,約有 10% 受到影響,也就是每 10 個搜尋之中,會有 1 個搜尋結果受到影響,因此被稱為是繼 2015 年、號稱影響 Google 排名第三大因素的 RankBrain 推出後,Google 演算法史上目前最大的變革。除了英文以外,後來也逐漸推及到其他搜尋語言。

BERT 演算法背後的原理

1. 讓電腦聽懂「人話」:自然語言處理

自然語言指的是「人類自然而然說出來的語言」,因為正常狀況下,人類在對話時有上下文可以參考,因此能互相理解彼此的語意(當然偶爾還是可能出現溝通障礙,)。但電腦卻很難理解自然語言。而自然語言處理 Natural Language Processing (NLP),就是用來幫助電腦理解人類自然語言的一種技術。

以中文為例,因為中文句子不像英文句子,會用空格隔開各個單字,很容易因為斷句方式不同,而有不同的語意,因此,中文的自然語言處理至少要做到兩件事,第一件是將句子「斷成詞,以理解個別詞義」、第二件是「分析語意」,包括文法和整個句子的語意解讀。

-----廣告,請繼續往下閱讀-----

舉例來說,「他・有・繪畫・的・才能」和「放下・才・能・得到」這兩句話雖然都有「才能」,但兩個句子的斷句方式不同,「才能」在這兩句話的意思也不同。研究人員會將大量的類似句子做出這樣的斷句,讓電腦學習,往後當「才能」這個詞又出現時,電腦也能學會從上下文判斷,並做出適當的斷句。

脑, 芯片, 神经元, 学习机, 代码, 程序员, 网络, 计算机科学, 计算机芯片的, 头脑, 心理学
自然語言處理在會因為語言的不同而遇到不同的難題,以中文而言,處理「斷句」是一大挑戰。圖/Pixabay

2. 電腦「自學」的關鍵:詞向量

但詞彙那麼多,要如何讓電腦學習呢?最常見的方式是將詞彙轉換為「詞向量/詞嵌入」(Word Vector/ Word Embedding),簡單來說,就是以一連串數字代表詞彙,讓電腦更能理解詞彙之間的關係。每個詞彙都有一組數字,而這些數字是由比對大量前後文而統計出來的結果,可以用來比較詞彙間的關係遠近。

字義越相關,詞向量的距離越近,例如「蝴蝶」跟「飛」的向量距離比跟「爬」的向量距離還近。而且,隨著資料量越多,統計出來的數字也會隨之調整,詞彙間的關係因此能越來越精確。如此一來,電腦不需要語言學相關知識,也能透過蒐集大量資料和統計來自主學習,並且根據統計數據處理語言。

回到BERT來說,起初,研究人員研發出多個不一樣的語言理解處理模型,每個模型都有特定的功能,專職處理特定類型的語言理解,例如有的負責斷詞、有的負責分析語法、有的負責情感分析。就好像廚房中有各種不同的工具,水果刀用來切水果、開瓶器用來開紅酒,每個器具各司其職;而BERT就像是一把瑞士刀,一把在手就能滿足多種功能需求,BERT能處理大部分的自然語言處理問題,也就不再需要使用多種語言理解處理模型,這也是Google將BERT導入演算法應用的原因之一。 

-----廣告,請繼續往下閱讀-----

常見的自然語言處理有效運用案例有:客服常使用的聊天機器人、智慧型手機的詞彙建議等,能從幾個關鍵字判斷出完整句子,再從資料庫中找出適合的資料回應。

(補充:若想更深入了解BERT演算法原理,可參考Google官方釋出的Open Source說明。)

BERT 演算法的應用實例

Google 官方表示 BERT 將會擴大應用於多種語言的搜尋結果,但官方目前已釋出的舉例大多仍是以英文為主。

例如:使用者搜尋“2019 brazil traveler to usa need a visa”,是想知道「2019 年巴西旅客去美國旅遊是否需要簽證」,但在 BERT 演算法推出前,Google 忽略了使用者搜尋字串中的介係詞 “to”,因此將搜尋意圖錯誤理解為「美國旅客去巴西旅遊是否需要簽證」,提供的搜尋結果自然就會是針對美國人要去巴西旅遊的情境。

-----廣告,請繼續往下閱讀-----
圖/ Google 截圖

BERT 演算法強調搜尋引擎能辨識搜尋字串的「每個字」,再去理解整個搜尋字串要表達的語意,所以加入介係詞 “to” 去分析以後,就會得到完全不同、更準確的搜尋意圖,提供的搜尋結果自然更能符合使用者的需求。

雖然沒有官方資料證實,BERT演算法對於繁體中文搜尋結果有何影響。但實際搜尋幾組繁體中文關鍵字,仍可發現有 BERT 的蹤影。例如搜尋口語化的句子「今天會下雨嗎」,和較為正式的關鍵字用法「本日 降雨機率」,Google 搜尋結果第一個列出的,都是使用者所在位置的降雨機率預報。

「今天會下雨嗎」的搜尋結果。圖/Google截圖

根據上述例子,可以推測出,即使「今天會下雨嗎」是相當口語化的自然語言搜尋用語,但Google仍然能夠理解,使用者輸入「今天會下雨嗎」和「本日 降雨機率」這兩組關鍵字,所要找的資料其實是一樣的。

「本日 降雨機率」的搜尋結果。圖/Google截圖

BERT 演算法也有極限

先不論 BERT 演算法,是否能改善英文以外其他語言的搜尋結果,BERT 演算法本身也有以下一些限制:

-----廣告,請繼續往下閱讀-----

1. 不擅長理解否定敘述

語言學家 Allyson Ettinger 在他的研究論文 “What BERT is not” 中提出了幾個要點說明 BERT 的限制,其中特別指出 BERT 很難理解否定詞對於上下文語意的影響。

2. 不擅長理解長篇文件

電腦要理解長篇文件的挑戰性更高,因為大部分長篇文件會再細分為章節、段落、句子,即便是人類在閱讀長篇文件時,可能都需要參考文件架構才能理解整篇文件的內容。因此電腦在理解長篇文件時應該將架構一起納入處理,但理解長篇文件的架構對 BERT 演算法而言並不容易。

總結

Google 官方承認,即便導入了 BERT 來提升自然語言處理的成效,要精準理解自然語言對於電腦而言仍是非常有挑戰性。不過,針對搜尋結果優先列出的「精選摘要」部分,Google 表示目前至少在韓語、印地語和葡萄牙語都已有重大改善。在未來,Google 預計將 BERT 學習英文理解的這套模式套用到更多不同語言上,期待未來所有使用者在執行搜尋時,都能以最輕鬆自然的方式輸入,而不需要刻意思考應該輸入什麼關鍵字,才能被 Google 搜尋引擎所理解。

資料來源

  1. Google Duplex: AI will call and book your appointments
  2. FAQ: All about the BERT algorithm in Google search – Search Engine Land
  3. Open Sourcing BERT – Google AI Blog
  4. 如何斷開中文峰峰相連的詞彙鎖鍊,讓電腦能讀懂字裡行間的語意? – 泛科學 PanSci
  5. Understanding searches better than ever before – Google
  6. What BERT is not – Allyson Ettinger
  7. Google’s SMITH Algorithm Outperforms BERT – Search Engine Journal
-----廣告,請繼續往下閱讀-----
文章難易度
所有討論 2
Abby T
5 篇文章 ・ 7 位粉絲
任職於 JKL SEO 公司的 SEO 顧問兼內容行銷專欄作家。對 SEO搜尋引擎優化相關演算法小有研究,致力於將 SEO 相關知識,以淺顯易懂方式撰寫成科普文章,使普羅大眾有機會認識 SEO 這項專業數位行銷技術。

0

6
0

文字

分享

0
6
0
量子革命來襲!一分鐘搞定傳統電腦要花數千萬年的難題!你的電腦是否即將被淘汰?
PanSci_96
・2024/10/17 ・2050字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

量子電腦:解碼顛覆未來科技的關鍵

2023 年,Google 發表了一項引人注目的研究成果,顯示人類現有最強大的超級電腦 Frontier 需要花費 47 年才能完成的計算任務,Google 所研發的量子電腦 Sycamore 只需幾秒鐘便能完成。這項消息震驚了科技界,也再次引發了量子電腦的討論。

那麼,量子電腦為什麼如此強大?它能否徹底改變我們對計算技術的認知?

歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

量子電腦是什麼?

量子電腦是一種基於量子力學運作的新型計算機,它與我們熟悉的傳統電腦截然不同。傳統電腦的運算是建立在「位元」(bits)的基礎上,每個位元可以是 0 或 1,這種二進位制運作方式使得計算過程變得線性且單向。然而,量子電腦使用的是「量子位元」(qubits),其運算邏輯則是基於量子力學中的「疊加」與「糾纏」等現象,這使得量子位元能同時處於 0 和 1 的疊加狀態。

這意味著,量子電腦能夠在同一時間進行多個計算,從而大幅提高運算效率。對於某些非常複雜的問題,例如氣候模型、金融分析,甚至質因數分解,傳統電腦可能需要數千年才能完成的運算任務,量子電腦只需數分鐘甚至更短時間便可完成。

-----廣告,請繼續往下閱讀-----

Google、IBM 和量子競賽

Google 和 IBM 是目前在量子計算領域中競爭最為激烈的兩大科技公司。Google 的 Sycamore 量子電腦已經展示出極高的計算速度,令傳統超級電腦相形見絀。IBM 則持續投入量子電腦的研究,並推出了超過 1000 個量子位元的系統,預計到 2025 年,IBM 的量子電腦將擁有超過 4000 個量子位元。

除此之外,世界各國和企業都爭相投入這場「量子霸權」的競賽,台灣的量子國家隊也不例外,積極尋求量子計算方面的突破。這場量子競賽,將決定未來的計算技術格局。

量子電腦的核心原理

量子電腦之所以能如此快速,是因為它利用了量子力學中的「疊加態」和「糾纏態」。簡單來說,傳統電腦的位元只能是 0 或 1 兩種狀態,而量子位元則可以同時處於 0 和 1 兩種狀態的疊加,這使得量子電腦可以在同一時間內同時進行多次計算。

舉例來說,如果一台電腦需要處理一個要花 330 年才能解決的問題,量子電腦只需 10 分鐘便可解決。如果問題變得更複雜,傳統電腦需要 3300 年才能解決,量子電腦只需再多花一分鐘便能完成。

-----廣告,請繼續往下閱讀-----

此外,量子電腦中使用的量子閘(quantum gates)類似於傳統電腦中的邏輯閘,但它能進行更複雜的運算。量子閘可以改變量子位元的量子態,進而完成計算過程。例如,Hadamard 閘能將量子位元轉變為疊加態,使其進行平行計算。

量子電腦能大幅縮短複雜問題的計算時間,利用量子閘進行平行運算。圖/envato

計算的效率

除了硬體技術的進步,量子電腦的強大運算能力也依賴於量子演算法。當前,最著名的兩種量子演算法分別是 Grover 演算法與 Shor 演算法。

Grover 演算法主要用於搜尋無序資料庫,它能將運算時間從傳統電腦的 N 遞減至 √N,這使得資料搜索的效率大幅提升。舉例來說,傳統電腦需要花費一小時才能完成的搜索,量子電腦只需幾分鐘甚至更短時間便能找到目標資料。

Shor 演算法則專注於質因數分解。這對於現代加密技術至關重要,因為目前網路上使用的 RSA 加密技術正是基於質因數分解的困難性。傳統電腦需要數千萬年才能破解的加密,量子電腦只需幾秒鐘便可破解。這也引發了全球對後量子密碼學(PQC)的研究,因為一旦量子電腦大規模應用,現有的加密系統將面臨極大的威脅。

-----廣告,請繼續往下閱讀-----

量子電腦的挑戰:退相干與材料限制

儘管量子電腦具有顛覆性的運算能力,但其技術發展仍面臨諸多挑戰。量子位元必須保持在「疊加態」才能進行運算,但量子態非常脆弱,容易因環境中的微小干擾而坍縮成 0 或 1,這種現象被稱為「量子退相干」。量子退相干導致量子計算無法穩定進行,因此,如何保持量子位元穩定是量子電腦發展的一大難題。

目前,科學家們正在探索多種材料和技術來解決這一問題,例如超導體和半導體技術,並嘗試研發更穩定且易於量產的量子電腦硬體。然而,要實現大規模的量子計算應用,仍需克服諸多技術瓶頸。

量子電腦對未來生活的影響

量子電腦的快速發展將為未來帶來深遠的影響。它不僅將推動科學研究的進步,例如藥物設計、材料科學和天文物理等領域,還可能徹底改變我們的日常生活。例如,交通運輸、物流優化、金融風險管理,甚至氣候變遷預測,都有望因量子計算的應用而變得更加精確和高效。

然而,量子計算的發展也帶來了一些潛在的風險。隨著量子電腦逐漸成熟,現有的加密技術可能會被徹底摧毀,全球的資訊安全體系將面臨巨大挑戰。因此,各國政府和企業已經開始研究新的加密方法,以應對量子時代的來臨。

-----廣告,請繼續往下閱讀-----
-----廣告,請繼續往下閱讀-----

討論功能關閉中。

0

1
0

文字

分享

0
1
0
從離子阱到拓樸量子位元:量子計算的未來還有多少可能?
PanSci_96
・2024/10/13 ・2069字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

量子電腦的新戰場:Atom Computing 的崛起

量子電腦的發展一直以來被視為科技的終極挑戰,從 Google 的量子霸權,到 IBM 不斷推進的Condor 超導電腦,業界翹首以待。然而,截至 2024 年,量子計算領域出現了一個新的變數。Atom Computing 一家美國新興公司,推出了擁有 1,180 個量子位元的量子電腦,不僅超越了IBM神鷹量子電腦的 1,121 個量子位元,甚至德國達姆施塔特工業大學也宣布開發出 1,305 個量子位元的超級電腦。

這些新興勢力的出現,不僅在位元數量上超越了 Google 與 IBM 的現有設備,更顛覆了量子電腦技術路線的既有認知。與以往依賴超導技術的量子電腦不同,Atom Computing 與達姆施塔特大學採用了「離子阱」( Ion Traps ) 技術,利用雷射與電場操控離子,形成穩定且壽命較長的量子位元。這是否意味著,超導量子電腦將不再是量子計算的唯一未來?

歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

離子阱技術:量子計算的新契機?

為了理解這一新興技術的潛力,我們首先需要認識量子位元的製作原理。超導量子電腦運用電子在超低溫下的行為,來實現穩定的量子狀態。然而,隨著量子位元數量增加,超導系統面臨物理尺寸與能耗的挑戰。這也是為何離子阱技術逐漸受到重視。

離子阱技術是透過電場陷阱將帶電的離子懸浮在空中,並利用雷射操控其量子態。這種技術擁有更高的穩定性,且能在更長時間內維持量子位元的疊加態。然而,由於需要超低溫、精確的電場控制以及真空環境,離子阱技術在商業應用中的成本仍然偏高,但它的潛力不容忽視。

-----廣告,請繼續往下閱讀-----

中性原子與光學魔法:更進一步的量子技術

除了離子阱技術,Atom Computing 與德國團隊則採用另一種不同的策略——使用中性原子來取代離子。中性原子不帶電,這意味著無法直接依賴電場控制,那它們如何操控?答案在於光學技術。他們運用光鑷(光學鑷子)和雷射致冷技術,用光來束縛和操控中性原子。光鑷是 2018 年諾貝爾物理學獎的技術,利用雷射的動量來推動和控制微小的粒子。

在這種方法下,雷射不僅能束縛原子,還能通過致冷技術將原子的運動降到極低,使得量子態更穩定。這種新興技術雖然仍處於實驗階段,但已顯示出其在量子計算中的巨大潛力。

量子點與鑽石空缺:人造原子的力量

另一個在量子計算領域獲得關注的技術是「量子點」( Quantum Dots )。量子點被視為人造原子,科學家透過在矽晶體等半導體材料中束縛電子,並利用微波來控制其自旋狀態。這項技術的最大優勢是半導體產業已經相當成熟,因此如果量子點技術能成功商業化,其普及速度將非常快速。即便如此,量子點技術仍需要在低溫環境下運作,且面臨如何克服材料內部雜訊干擾的挑戰。

與此類似的技術還包括「鑽石空缺」( Diamond Vacancies ),它透過在人造鑽石中替換部分碳原子,以氮原子取代,並使用雷射來激發這些空缺結構。鑽石空缺技術的最大優點是它不需要極低溫,能在室溫下運作,這使得它在未來的量子計算應用中具有很大的潛力。

-----廣告,請繼續往下閱讀-----
量子電腦模擬的原子核 。圖/wikimedia

二維世界的探索:拓樸量子位元

隨著三維物理的極限逐漸顯現,科學家們將目光投向了二維世界,探索其中的量子計算可能性。微軟與貝爾實驗室都在研究的「拓樸量子位元」( Topological Qubits ) 便是一個例子。拓樸量子位元基於一種稱為「任意子」( Anyon ) 的準粒子運作,這種粒子只存在於二維空間中,並且擁有無視傳統量子力學法則的特性。

拓樸量子位元透過操控粒子的空間幾何軌跡來實現運算,這種軌跡在二維空間中表現出穩定且高度容錯的特性。因此,與其他量子位元相比,拓樸量子位元的穩定性與耐久性更佳。然而,這項技術仍處於實驗階段,距離實際應用還有一段路要走。

量子電腦的未來:量子糾錯與穩定性挑戰

儘管量子電腦擁有極大的潛力,但其目前仍面臨著許多挑戰,最重要的便是量子位元之間的「保真度」( Fidelity ) 與「量子糾錯」( Quantum Error Correction ) 技術。現代的量子電腦對外界干擾極為敏感,甚至微小的環境變化都可能導致計算結果的錯誤。因此,提升量子位元的精確率,並開發有效的糾錯技術,是量子計算未來必須跨越的關鍵。

以 Google 為例,他們在 2023 年發布的研究顯示,通過增加量子位元數量並使用「表面碼」( Surface Code ) 技術,他們成功降低了量子計算中的錯誤率。這項進展意味著量子糾錯技術正逐步成為現實,然而,大規模商業化的量子電腦仍需更多時間才能問世。

-----廣告,請繼續往下閱讀-----

誰將引領量子計算的未來?

量子電腦的發展方向多樣,從超導量子電腦、離子阱、中性原子、量子點、鑽石空缺,到拓樸量子位元,每一種技術都有其獨特的優勢與挑戰。誰能成為量子計算的最終霸主,仍然是未解之謎。或許在不遠的將來,量子電腦將以我們無法想像的速度改變世界,重新定義我們對計算、數據與科技的理解。

-----廣告,請繼續往下閱讀-----

討論功能關閉中。

0

0
0

文字

分享

0
0
0
想要擁有一台 AI PC,有必要嗎?NPU 是什麼?超詳盡 AI PC 選購指南來啦!
泛科學院_96
・2024/05/18 ・1080字 ・閱讀時間約 2 分鐘

2023 年 3 月 intel 跟微軟共同發布了 AI PC 定義。

定義需要用 intel 的 Core Ultra 處理器,要有微軟系統內建 的Copilot AI,鍵盤上還需要有一個實體 copilot 按鍵,才算是一台 AI PC。

這個 AJ 看到後,發現案情並不單純,定義 AI PC 這件事情,遠比你想得還要重要!

所以今天呢,我們就來回答三個問題:

-----廣告,請繼續往下閱讀-----
  1. AI PC 是什麼?
  2. AI PC 強在哪?
  3. 有哪些公司跟 AI PC 有關?

最後再跟大家分享是否要買 AI PC 的建議。

好啦,本集我們整理了整個 AI PC 的脈絡,我把懶人包放在這裡,有需要的可以暫停看一下。

最後來給買 AI PC 的建議吧,如果你主要用桌上型電腦,4090 獨立顯卡直接給他買下去,因為桌上型的處理器至少到目前為止,都還沒看到內建 NPU 的規劃,所以所有的平行運算都還是靠顯示卡 GPU 來處理。

筆記型電腦方面,各家網購平台都已經推出 AI 筆電專區,最低三萬元左右就可以買到最新的 AI PC。

-----廣告,請繼續往下閱讀-----

或許你還沒體驗到 AI 工具帶來的工作流程改變,不過潮流已經出現,據說到 2025 年,將出貨超過一億台AI PC,各家軟硬體廠商在這個全新的賽道上,只會不斷推出各種基於 AI PC 架構的應用與服務,畢竟,你如果不做,你的競爭對手可是不會等你。

有點離題了,在可遇見的未來,我們勢必會發現自己的電腦擁有更多基於 AI 技術的功能,

也許,你可以再等一會,等桌上型電腦也內建 NPU 之後,再來買真正的 AI 「PC」,不過要問我的話,如果是購買筆電的需求,選擇適合 Intel Evo 認證的筆電是值得推薦的選擇。

最後,你覺得 AI PC 會如微軟和 intel 預想的發展下去嗎?

  1. 會,終究要讓自己電腦分擔伺服器工作。
  2. 不會,AI PC 就只是宣傳話術。
  3. 我是果粉我驕傲,AI PC 如浮雲。

如果有其他想看的 AI 工具測試或相關問題,也可以留言發問,如果喜歡這支影片的話,也別忘了按讚、訂閱,加入會員,我們下集再見~掰!

-----廣告,請繼續往下閱讀-----

更多、更完整的內容,歡迎上泛科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

-----廣告,請繼續往下閱讀-----
泛科學院_96
44 篇文章 ・ 55 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!