2

8
0

文字

分享

2
8
0

別意外!Google 真的聽得懂「人話」:BERT 自然語意演算法如何提升關鍵字理解能力?

Abby T
・2021/10/12 ・3416字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

打開搜尋引擎,不知道要輸入什麼用詞才能找到需要的資訊?例如,明明心中的疑問是「今天會下雨嗎?」,但打開Google搜尋,輸入的關鍵字卻是「本日 降雨機率」。

為了要讓搜尋引擎理解問題,大多數的人在使用 Google 搜尋時往往會捨棄口語用詞,改為輸入幾個簡單的關鍵字,久而久之已變成一種慣用的搜尋習慣。好像不那麼做,Google 會看不懂關鍵字,也就無法順利搜尋到需要的資訊。

但看看「Google 助理向美髮沙龍預約剪髮」的實際對話影片,可以發現 Google 其實有能力理解口語對話,還能像人類一樣回覆流利答覆,而這樣的能力也能在 2019 年「BERT 自然語意演算法」推出後,使用 Google 搜尋查找資訊時獲得類似的經驗。 

號稱能理解人類語言的 BERT 演算法

BERT 演算法有個繞口又深奧的全名:Bidirectional Encoder Representations from Transformers,翻成中文的字面意思還是很難理解。

-----廣告,請繼續往下閱讀-----

但簡單來說,它能幫助電腦更理解人類的語言。若應用在搜尋引擎方面,它能夠仔細辨識搜尋字串的「每個字」,再根據前後字詞的關係(上下文)去讀懂整個搜尋字串要表達的意思,而且與以往只擇一比對前一或後一個字詞不同的是,BERT 演算法是將前、後字詞都納入判斷語意的參考,所以能更精確判斷使用者搜尋該字串的意圖/目的。

BERT 演算法剛推出時,在美國地區、使用英文搜尋時的搜尋結果,約有 10% 受到影響,也就是每 10 個搜尋之中,會有 1 個搜尋結果受到影響,因此被稱為是繼 2015 年、號稱影響 Google 排名第三大因素的 RankBrain 推出後,Google 演算法史上目前最大的變革。除了英文以外,後來也逐漸推及到其他搜尋語言。

BERT 演算法背後的原理

1. 讓電腦聽懂「人話」:自然語言處理

自然語言指的是「人類自然而然說出來的語言」,因為正常狀況下,人類在對話時有上下文可以參考,因此能互相理解彼此的語意(當然偶爾還是可能出現溝通障礙,)。但電腦卻很難理解自然語言。而自然語言處理 Natural Language Processing (NLP),就是用來幫助電腦理解人類自然語言的一種技術。

以中文為例,因為中文句子不像英文句子,會用空格隔開各個單字,很容易因為斷句方式不同,而有不同的語意,因此,中文的自然語言處理至少要做到兩件事,第一件是將句子「斷成詞,以理解個別詞義」、第二件是「分析語意」,包括文法和整個句子的語意解讀。

-----廣告,請繼續往下閱讀-----

舉例來說,「他・有・繪畫・的・才能」和「放下・才・能・得到」這兩句話雖然都有「才能」,但兩個句子的斷句方式不同,「才能」在這兩句話的意思也不同。研究人員會將大量的類似句子做出這樣的斷句,讓電腦學習,往後當「才能」這個詞又出現時,電腦也能學會從上下文判斷,並做出適當的斷句。

脑, 芯片, 神经元, 学习机, 代码, 程序员, 网络, 计算机科学, 计算机芯片的, 头脑, 心理学
自然語言處理在會因為語言的不同而遇到不同的難題,以中文而言,處理「斷句」是一大挑戰。圖/Pixabay

2. 電腦「自學」的關鍵:詞向量

但詞彙那麼多,要如何讓電腦學習呢?最常見的方式是將詞彙轉換為「詞向量/詞嵌入」(Word Vector/ Word Embedding),簡單來說,就是以一連串數字代表詞彙,讓電腦更能理解詞彙之間的關係。每個詞彙都有一組數字,而這些數字是由比對大量前後文而統計出來的結果,可以用來比較詞彙間的關係遠近。

字義越相關,詞向量的距離越近,例如「蝴蝶」跟「飛」的向量距離比跟「爬」的向量距離還近。而且,隨著資料量越多,統計出來的數字也會隨之調整,詞彙間的關係因此能越來越精確。如此一來,電腦不需要語言學相關知識,也能透過蒐集大量資料和統計來自主學習,並且根據統計數據處理語言。

回到BERT來說,起初,研究人員研發出多個不一樣的語言理解處理模型,每個模型都有特定的功能,專職處理特定類型的語言理解,例如有的負責斷詞、有的負責分析語法、有的負責情感分析。就好像廚房中有各種不同的工具,水果刀用來切水果、開瓶器用來開紅酒,每個器具各司其職;而BERT就像是一把瑞士刀,一把在手就能滿足多種功能需求,BERT能處理大部分的自然語言處理問題,也就不再需要使用多種語言理解處理模型,這也是Google將BERT導入演算法應用的原因之一。 

-----廣告,請繼續往下閱讀-----

常見的自然語言處理有效運用案例有:客服常使用的聊天機器人、智慧型手機的詞彙建議等,能從幾個關鍵字判斷出完整句子,再從資料庫中找出適合的資料回應。

(補充:若想更深入了解BERT演算法原理,可參考Google官方釋出的Open Source說明。)

BERT 演算法的應用實例

Google 官方表示 BERT 將會擴大應用於多種語言的搜尋結果,但官方目前已釋出的舉例大多仍是以英文為主。

例如:使用者搜尋“2019 brazil traveler to usa need a visa”,是想知道「2019 年巴西旅客去美國旅遊是否需要簽證」,但在 BERT 演算法推出前,Google 忽略了使用者搜尋字串中的介係詞 “to”,因此將搜尋意圖錯誤理解為「美國旅客去巴西旅遊是否需要簽證」,提供的搜尋結果自然就會是針對美國人要去巴西旅遊的情境。

-----廣告,請繼續往下閱讀-----
圖/ Google 截圖

BERT 演算法強調搜尋引擎能辨識搜尋字串的「每個字」,再去理解整個搜尋字串要表達的語意,所以加入介係詞 “to” 去分析以後,就會得到完全不同、更準確的搜尋意圖,提供的搜尋結果自然更能符合使用者的需求。

雖然沒有官方資料證實,BERT演算法對於繁體中文搜尋結果有何影響。但實際搜尋幾組繁體中文關鍵字,仍可發現有 BERT 的蹤影。例如搜尋口語化的句子「今天會下雨嗎」,和較為正式的關鍵字用法「本日 降雨機率」,Google 搜尋結果第一個列出的,都是使用者所在位置的降雨機率預報。

「今天會下雨嗎」的搜尋結果。圖/Google截圖

根據上述例子,可以推測出,即使「今天會下雨嗎」是相當口語化的自然語言搜尋用語,但Google仍然能夠理解,使用者輸入「今天會下雨嗎」和「本日 降雨機率」這兩組關鍵字,所要找的資料其實是一樣的。

「本日 降雨機率」的搜尋結果。圖/Google截圖

BERT 演算法也有極限

先不論 BERT 演算法,是否能改善英文以外其他語言的搜尋結果,BERT 演算法本身也有以下一些限制:

-----廣告,請繼續往下閱讀-----

1. 不擅長理解否定敘述

語言學家 Allyson Ettinger 在他的研究論文 “What BERT is not” 中提出了幾個要點說明 BERT 的限制,其中特別指出 BERT 很難理解否定詞對於上下文語意的影響。

2. 不擅長理解長篇文件

電腦要理解長篇文件的挑戰性更高,因為大部分長篇文件會再細分為章節、段落、句子,即便是人類在閱讀長篇文件時,可能都需要參考文件架構才能理解整篇文件的內容。因此電腦在理解長篇文件時應該將架構一起納入處理,但理解長篇文件的架構對 BERT 演算法而言並不容易。

總結

Google 官方承認,即便導入了 BERT 來提升自然語言處理的成效,要精準理解自然語言對於電腦而言仍是非常有挑戰性。不過,針對搜尋結果優先列出的「精選摘要」部分,Google 表示目前至少在韓語、印地語和葡萄牙語都已有重大改善。在未來,Google 預計將 BERT 學習英文理解的這套模式套用到更多不同語言上,期待未來所有使用者在執行搜尋時,都能以最輕鬆自然的方式輸入,而不需要刻意思考應該輸入什麼關鍵字,才能被 Google 搜尋引擎所理解。

資料來源

  1. Google Duplex: AI will call and book your appointments
  2. FAQ: All about the BERT algorithm in Google search – Search Engine Land
  3. Open Sourcing BERT – Google AI Blog
  4. 如何斷開中文峰峰相連的詞彙鎖鍊,讓電腦能讀懂字裡行間的語意? – 泛科學 PanSci
  5. Understanding searches better than ever before – Google
  6. What BERT is not – Allyson Ettinger
  7. Google’s SMITH Algorithm Outperforms BERT – Search Engine Journal
文章難易度
所有討論 2
Abby T
5 篇文章 ・ 7 位粉絲
任職於 JKL SEO 公司的 SEO 顧問兼內容行銷專欄作家。對 SEO搜尋引擎優化相關演算法小有研究,致力於將 SEO 相關知識,以淺顯易懂方式撰寫成科普文章,使普羅大眾有機會認識 SEO 這項專業數位行銷技術。

0

8
2

文字

分享

0
8
2
快!還要更快!讓國家級地震警報更好用的「都會區強震預警精進計畫」
鳥苷三磷酸 (PanSci Promo)_96
・2024/01/21 ・2584字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

本文由 交通部中央氣象署 委託,泛科學企劃執行。

  • 文/陳儀珈

從地震儀感應到地震的震動,到我們的手機響起國家級警報,大約需要多少時間?

臺灣從 1991 年開始大量增建地震測站;1999 年臺灣爆發了 921 大地震,當時的地震速報系統約在震後 102 秒完成地震定位;2014 年正式對公眾推播強震即時警報;到了 2020 年 4 月,隨著技術不斷革新,當時交通部中央氣象局地震測報中心(以下簡稱為地震中心)僅需 10 秒,就可以發出地震預警訊息!

然而,地震中心並未因此而自滿,而是持續擴建地震觀測網,開發新技術。近年來,地震中心執行前瞻基礎建設 2.0「都會區強震預警精進計畫」,預計讓臺灣的地震預警系統邁入下一個新紀元!

-----廣告,請繼續往下閱讀-----

連上網路吧!用建設與技術,換取獲得地震資料的時間

「都會區強震預警精進計畫」起源於「民生公共物聯網數據應用及產業開展計畫」,該計畫致力於跨部會、跨單位合作,由 11 個執行單位共同策畫,致力於優化我國環境與防災治理,並建置資料開放平台。

看到這裡,或許你還沒反應過來地震預警系統跟物聯網(Internet of Things,IoT)有什麼關係,嘿嘿,那可大有關係啦!

當我們將各種實體物品透過網路連結起來,建立彼此與裝置的通訊後,成為了所謂的物聯網。在我國的地震預警系統中,即是透過將地震儀的資料即時傳輸到聯網系統,並進行運算,實現了對地震活動的即時監測和預警。

地震中心在臺灣架設了 700 多個強震監測站,但能夠和地震中心即時連線的,只有其中 500 個,藉由這項計畫,地震中心將致力增加可連線的強震監測站數量,並優化原有強震監測站的聯網品質。

-----廣告,請繼續往下閱讀-----

在地震中心的評估中,可以連線的強震監測站大約可在 113 年時,從原有的 500 個增加至 600 個,並且更新現有監測站的軟體與硬體設備,藉此提升地震預警系統的效能。

由此可知,倘若地震儀沒有了聯網的功能,我們也形同完全失去了地震預警系統的一切。

把地震儀放到井下後,有什麼好處?

除了加強地震儀的聯網功能外,把地震儀「放到地下」,也是提升地震預警系統效能的關鍵做法。

為什麼要把地震儀放到地底下?用日常生活來比喻的話,就像是買屋子時,要選擇鬧中取靜的社區,才不會讓吵雜的環境影響自己在房間聆聽優美的音樂;看星星時,要選擇光害比較不嚴重的山區,才能看清楚一閃又一閃的美麗星空。

-----廣告,請繼續往下閱讀-----

地表有太多、太多的環境雜訊了,因此當地震儀被安裝在地表時,想要從混亂的「噪音」之中找出關鍵的地震波,就像是在搖滾演唱會裡聽電話一樣困難,無論是電腦或研究人員,都需要花費比較多的時間,才能判讀來自地震的波形。

這些環境雜訊都是從哪裡來的?基本上,只要是你想得到的人為震動,對地震儀來說,都有可能是「噪音」!

當地震儀靠近工地或馬路時,一輛輛大卡車框啷、框啷地經過測站,是噪音;大稻埕夏日節放起絢麗的煙火,隨著煙花在天空上一個一個的炸開,也是噪音;台北捷運行經軌道的摩擦與震動,那也是噪音;有好奇的路人經過測站,推了推踢了下測站時,那也是不可忽視的噪音。

因此,井下地震儀(Borehole seismometer)的主要目的,就是盡量讓地震儀「遠離塵囂」,記錄到更清楚、雜訊更少的地震波!​無論是微震、強震,還是來自遠方的地震,井下地震儀都能提供遠比地表地震儀更高品質的訊號。

-----廣告,請繼續往下閱讀-----

地震中心於 2008 年展開建置井下地震儀觀測站的行動,根據不同測站底下的地質條件,​將井下地震儀放置在深達 30~500 公尺的乾井深處。​除了地震儀外,站房內也會備有資料收錄器、網路傳輸設備、不斷電設備與電池,讓測站可以儲存、傳送資料。

既然井下地震儀這麼強大,為什麼無法大規模建造測站呢?簡單來說,這一切可以歸咎於技術和成本問題。

安裝井下地震儀需要鑽井,然而鑽井的深度、難度均會提高時間、技術與金錢成本,因此,即使井下地震儀的訊號再好,若非有國家建設計畫的支援,也難以大量建置。

人口聚集,震災好嚴重?建立「客製化」的地震預警系統!

臺灣人口主要聚集於西半部,然而此區的震源深度較淺,再加上密集的人口與建築,容易造成相當重大的災害。

-----廣告,請繼續往下閱讀-----

許多都會區的建築老舊且密集,當屋齡超過 50 歲時,它很有可能是在沒有耐震規範的背景下建造而成的的,若是超過 25 年左右的房屋,也有可能不符合最新的耐震規範,並未具備現今標準下足夠的耐震能力。 

延伸閱讀:

在地震界有句名言「地震不會殺人,但建築物會」,因此,若建築物的結構不符合地震規範,地震發生時,在同一面積下越密集的老屋,有可能造成越多的傷亡。

因此,對於發生在都會區的直下型地震,預警時間的要求更高,需求也更迫切。

-----廣告,請繼續往下閱讀-----

地震中心著手於人口密集之都會區開發「客製化」的強震預警系統,目標針對都會區直下型淺層地震,可以在「震後 7 秒內」發布地震警報,將地震預警盲區縮小為 25 公里。

111 年起,地震中心已先後完成大臺北地區、桃園市客製化作業模組,並開始上線測試,當前正致力於臺南市的模組,未來的目標為高雄市與臺中市。

永不停歇的防災宣導行動、地震預警技術研發

地震預警系統僅能在地震來臨時警示民眾避難,無法主動保護民眾的生命安全,若人民沒有搭配正確的防震防災觀念,即使地震警報再快,也無法達到有效的防災效果。

因此除了不斷革新地震預警系統的技術,地震中心也積極投入於地震的宣導活動和教育管道,經營 Facebook 粉絲專頁「報地震 – 中央氣象署」、跨部會舉辦《地震島大冒險》特展、《震守家園 — 民生公共物聯網主題展》,讓民眾了解正確的避難行為與應變作為,充分發揮地震警報的效果。

-----廣告,請繼續往下閱讀-----

此外,雖然地震中心預計於 114 年將都會區的預警費時縮減為 7 秒,研發新技術的腳步不會停止;未來,他們將應用 AI 技術,持續強化地震預警系統的效能,降低地震對臺灣人民的威脅程度,保障你我生命財產安全。

文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
196 篇文章 ・ 300 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

1

2
1

文字

分享

1
2
1
AI 做簡報又更簡單了!只輸入網址,Bard 就整理好線上論文?
泛科學院_96
・2023/08/20 ・689字 ・閱讀時間約 1 分鐘

-----廣告,請繼續往下閱讀-----

超誇張,只要貼上網址,Google Bard AI 把網頁內容變成簡報,這這這我還能不變心嗎?

之前有一支影片分享了 ChatGPT 結合 Power Point 的簡報製作技巧。

在 Bard 大更新之後,運用網頁瀏覽的功能,不管是線上期刊還是論文,轉換成簡報更加的方便,根據我自己的測試,只要五分鐘,從一篇網路上的論文就可以快速的變成一份漂亮的簡報,這真是懶人救星啊!

今天簡單的分享了 Bard 支援連接網路之後的論文摘要功能,並且回應之前影片網友遇到的內容大綱轉簡報的製作問題,希望這支影片能解決你的問題

-----廣告,請繼續往下閱讀-----

看完影片之後你覺得 Bard 的哪個功能最讓你驚艷或驚嚇呢?

  1. 拳打 ChatGPT 的連網功能
  2. 腳踢 ChatGPT 的內容準確性
  3. 豪奪網站的資訊內容
  4. 巧取生成錯誤資訊魚目混珠

如果你有更多的想法與問題,歡迎加入泛科學 AI 的 Discord 論壇,我把連結放在影片下方資訊欄。

如果這支影片對你有幫助的話,請幫我在影片下方點個喜歡,或是透過超級感謝展現你的心意,讓我製作更多實用有趣的 AI 教學影片,最後別忘了訂閱泛科學院的頻道,我們下支影片再見囉。

更多、更完整的內容,歡迎上泛科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

所有討論 1
泛科學院_96
24 篇文章 ・ 33 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!

0

6
1

文字

分享

0
6
1
ChatGPT 還是 AI 之王嗎?Google Bard AI 與微軟 Bing AI 的終極測試
泛科學院_96
・2023/08/12 ・537字 ・閱讀時間約 1 分鐘

-----廣告,請繼續往下閱讀-----

今天這集影片我們準備拿 ChatGPT、Google Bard AI 跟微軟的 Bing AI 來作一個大亂鬥比賽,我們準備了幾個不同的挑戰看誰最厲害。

因為 Bard 跟 Bing 都是免費提供,為了公平性,我主要會使用免費的 GPT 3.5 來比較,不過我同時會放上 GPT-4 開啟網路瀏覽功能的結果來給各位作參考。

評比的成果我會給一顆星到五顆星來呈現,主要分為四個類別:易用性、實用性、創造性以及回應速度。

看完今天的影片,你會想要使用Bing、Bard還是Chatgpt呢?歡迎在影片下方留下你的看法

-----廣告,請繼續往下閱讀-----

如果這支影片對你有幫助的話,請幫我在影片下方點個喜歡,並且把這支影片分享給需要的朋友,最後別忘了訂閱泛科學院的頻道,我們下支影片再見囉。

更多、更完整的內容,歡迎上泛科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

泛科學院_96
24 篇文章 ・ 33 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!