1

4
0

文字

分享

1
4
0

打造「聊」癒系機器人!看圖說故事,AI 也略懂略懂

研之有物│中央研究院_96
・2020/08/18 ・3503字 ・閱讀時間約 7 分鐘

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位。

  • 採訪編輯|郭雅欣;美術編輯|林洵安

AI 如何看圖說故事?

看圖說故事對人類來說,是輕鬆好玩的事,但對 AI 來說,卻是巨大挑戰,因為這代表 AI 必須看出圖中有哪些物件、理解圖片意義、能夠生成文句,還要看懂圖片間的因果邏輯。在中研院資訊科學研究所古倫維副研究員的努力下, AI 看圖說故事的能力有了很大的進展。她的模型有什麼獨特之處呢?跟著研之有物一起來瞧瞧!

俗話說得好:「發文不附圖,此風不可長。」不論你發的是爆卦文、閒聊文還是業配文,有圖更容易晉身流量熱文。不過近年來,社群網站發文的風向漸漸有了改變,從「發文附圖」轉變成「發圖附文」,我們總是先來一張照片,再配上相應的描述文字。接下來,我們的發文習慣還會怎麼改變?

或許,未來你拍下一張照片上傳社群網站,電腦就會自動「看圖說故事」,為你的照片腦補一段說明文字,節省你的思考時間。

讓電腦學會「看圖說故事」的伎倆,正是中研院資訊科學研究所的古倫維副研究員正在鑽研的主題之一。她的主要研究領域是人工智慧( AI )的自然語言處理,在因緣際會下,接觸到一個 AI 看圖說故事的競賽: Visual Storytelling ( VIST ),開啟了她對 AI 看圖說故事的興趣。

中研院資訊科學研究所的古倫維副研究員,主要研究領域是人工智慧( AI )的自然語言處理,現正開發如何讓 AI 不只會說故事,還會看圖說故事。
攝影│林洵安

電腦如何學會「看圖說故事」?目前學界使用「機器學習」,簡單來說,就是讓電腦從大量的圖文搭配組合,從中學習看到怎樣的圖片,應該說出怎樣的故事。中研院資訊所古倫維副研究員說:「其實一開始我們做得並不特別好。我們跟其他參加競賽的人一樣,用機器學習的方法,把圖和對應的文字丟進電腦,讓機器自己學習最佳的圖文搭配。然而機器學習幾乎是軍備競賽了!誰的電腦計算能力更強,得到的模型更複雜,生成的文字就會更好。」

先選角、打草稿,再寫故事

在軍備競爭不足的情況下,古倫維決定採取不同的策略:「既然完全由 AI 看圖說故事的效果不夠好,能不能在故事生成的過程中,有一個人類可以介入改善的步驟。」所以她把原來的做法分成了兩個階段,先從圖片抽取語意,接著再生成文字故事。

語意抽取,是指先從個別圖片中選出用來說故事的概念(如同電影選角),用知識庫找出概念之間的關係,建立圖片的關聯,再為這些圖片擬定最好的草稿(如同電影故事大綱)。

重點來了!在「選角」階段, AI 會先以機器學習的結果,找出最適合說故事的「角色組合」,尤其是面對連續圖片。這就好比張曼玉、梁朝偉、成龍三個演員,前兩個主要演愛情片,第三個以武打戲為主,如果第一張照片選了張曼玉,第二張照片應該選梁朝偉,生成的故事會比較好看。

但目前 AI 選角部分還不夠靈光,有時仍會發生如「張曼玉配成龍」的選角名單。古倫維的兩階段設計讓人類可在「選角」階段介入修改。實際例子如:圖片中有小男孩、天空、腳踏車三個概念。AI 從上圖抽取出的概念可能是「小男孩」、「天空」,最後生成的故事可能是「一個小男孩在天空下」…… 滿無聊的。但人類可以把「天空」改成「腳踏車」,機器最後就可能生成「一個小男孩騎著腳踏車。」嗯,是不是比較有故事性了?

最後,人類再將修改後的選角和故事大綱,交給 AI 產生整個故事。這種「先選角、打草稿,再說故事」的方式,最後產生的故事比較不會無聊或是不合理,更接近人類說出的故事。

古倫維的故事生成模型將產生故事的過程分成「語意抽取」及「故事生成」兩個階段。
圖說重製│黃曉君、林洵安
資料來源│古倫維

知識庫,AI 想像力的補充包

為了增加 AI 的想像力,古倫維也在模型中納入「知識庫」,幫 AI 增加故事的知識。例如圖片中有人與馬,如果沒有知識庫,AI 可能只能生成「有一個人與一匹馬」這種平淡的句子。但知識庫可以補充人與馬關聯的知識,包括人可以騎馬、養馬等等,讓 AI 有機會說出「有一個人騎著自己養的馬」比較具故事性的句子。「當然 AI 也可能從大量的故事中以機器學習取得『很多人都會騎馬、養馬』的知識。但知識庫的最大功用,就是直接提供這個知識給 AI ,縮短學習歷程。」 古倫維解釋。

更重要的是,知識庫讓 AI 更容易解讀出圖片之間的關聯。如 VIST 競賽的題目就是包含了五張圖片的圖組,在知識庫的協助下, AI 比較容易找出各別圖片的概念之間的關聯,說出的故事會比較連貫,具有因果關係。

AI 是完全沒有想像力的,但若透過知識庫給它知識,這些知識在故事中呈現出來的,就像是 AI 的想像力。

電腦看圖說故事的範例。No KG 代表機器在不添加額外知識時所產生的故事,Visual Genome 與 Open IE 古倫維團隊用兩個不同的知識庫分別產生的故事,GLAC 是除了古倫維的模型外目前成果最好的模型。由上可知,知識庫的確能幫助故事的上下文連結。最後的 Human 是真人所寫的故事,包含了許多圖片中沒有的知識,甚至精神性的內容。
圖說美化│林洵安
資料來源│古倫維

巧妙切開「語意抽取」與「生成文本」

兩階段生成故事的方法還有一個優點,就是可善用大量的「圖片辨識」與「故事文本」資料庫,避開「圖文搭配」資料的缺乏。

現今的「圖片辨識」技術和資料庫非常成熟,可以精準的從圖片中抽取出各式各樣的概念。另一方面,說故事是人類從古至今不斷從事的活動,留下了大量的「故事文本」。相較之下,看圖說故事的「圖文搭配」資料量卻相當少,需要有人刻意去蒐集圖組、撰寫文字,古倫維說:「這種圖文搭配的資料必須人工建立,能有一萬組就很厲害了,但這個數量對於機器學習來說卻是遠遠不夠的。」

古倫維則把生成故事的過程拆成「語意抽取」與「生成文本」兩個階段,第一階段可利用精熟的圖片辨識技術和資料庫,抽取故事概念;第二階段再運用故事文本資料庫,讓機器學習如何將第一階段抽取(並由人類修改過)的概念,組合成漂亮的故事,巧妙避開了「圖文搭配」資料不足的難題。

把「語意抽取」與「生成文本」切開的話,兩個階段都可以利用幾千萬筆的既有資料,供機器學習。

腦補,讓機器更有溫度

說了半天,但 AI 會看圖說故事,到底能幹嘛?難道只是幫貼圖寫寫圖說?以研究的層面來說,如果 AI 能看圖說故事,代表 AI 在理解圖片、文字分析及因果邏輯等方面,都達到一定的水準,代表 AI 語言能力更加接近人類。在實際應用上, 可以為圖文創作者提供故事草稿,或是對於常常需要撰寫廣告文案、出差報告的人,能夠很快從圖像生成文本,人類只要略做修改潤飾即可 (小職員計畫通!)。

但更重要的是,機器人也能因此更有溫度!古倫維與臺大人工智慧與機器人研究中心的傅立成教授合作,希望透過 AI 看圖說故事的技術,讓居家照護機器人更有「人味」,會主動關懷人類。因為居家照護機器人在家中「看見」的一切,其實就是一張張的圖, AI 可以透過這些「圖」形成可能的故事,再轉化為暖心的問句。

想像一下,未來居家照護機器人看見老人家在廚房,故事劇情可能是「他要煮飯」,於是問出:「今晚想吃什麼?需要幫忙嗎?」當老人拿出相簿緬懷過去,AI 也能從舊照片解讀可能故事,轉化成聊天的問句:「照片中的這個人是誰啊?你們去哪裡玩?」還能變身孩子最愛的說故事姊姊!AI 可能從儲存的繪本資料庫中,隨機抽出不同圖畫重新組合,說出全新的故事。

會看圖說故事的 AI ,可以從眼前的情景連結到事件或情感,就像人類的腦補一般,而這些腦補就是故事。

AI 看圖說故事的能力,可讓照顧居家照護機器人了解眼前的生活情境,具有找話題的能力,變得溫暖許多。
圖片來源│iStock

如此一來,居家照護機器人不再只是被動的處理人類需求,相反的,「說故事的能力賦予了 AI 機器人找話題的功能。」古倫維笑著解釋,機器人從此不再詞窮,可以主動關心人類,與人類互動聊天,讓機器人變得溫暖許多。看來 AI 看圖說故事,不只是寫寫圖說、幫忙解決麻煩的出差報告,在不遠的未來,更是拉近我們與機器人距離的關鍵所在呢。

延伸閱讀

本文轉載自中央研究院研之有物,原文為《打造「聊」癒系機器人!看圖說故事,AI 也略懂略懂》,泛科學為宣傳推廣執行單位。

文章難易度
所有討論 1
研之有物│中央研究院_96
206 篇文章 ・ 1116 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

0

8
0

文字

分享

0
8
0

地震規模越大,晃得越厲害?

鳥苷三磷酸 (PanSci Promo)_96
・2021/09/16 ・3706字 ・閱讀時間約 7 分鐘

本文由 交通部氣象局 委託,泛科學企劃執行。

某天,阿雲跟阿寶分享了一個通訊軟體上看到的資訊:

阿雲:「欸,你知道最近有個傳言說,花蓮有 7.7 級地震,如果發生的話台北會有 5.0 級的震度耶!」

阿寶:「蛤?那個傳言也太怪了吧,應該是把規模和震度搞混了!」

震度:量度地表搖晃的單位

確實常常有人把地震的規模跟震度搞混,實際上,因為規模指的是地震釋放的能量大小,所以當一個地震發生時,它的規模值已經決定了,只是會因為測量或計算的方式不同,會有些許的數字差異,而一般規模計算會到小數點後第一位,故常會有小數點在裡面。然而震度指的意思是地表搖晃的程度,度量表示方式通常都是以「分級」為主,比如國外常見、分了 12 級震度的麥卡利震度階,就是用 12 種不同分級來描述,而中央氣象局目前所使用的震度則共分十級,原先是從 0 級到 7 級,而自 2020 年起,在 5 級與 6 級又增了強、弱之分,也就是震度由小而大為 0-1-2-3-4-5弱-5強-6弱-6強-7 等分級,所以在表示上我們以整數 + 級或是強、弱等寫法,就可以區分規模和震度,不被混淆了!

而為什麼專家常需要強調震度和規模不一樣?那是因為震度的大小,是受到許多因素的影響。地震發生後,造成地表搖晃的主要原因是「地震波」傳來了大量能量,規模越大的地震,代表的就是地震釋放的能量越大,就像是你把擴音的音量不斷提高時,會有更大的聲音傳出一般。所以當其他的因素固定時,確實會因為規模越大、震度越大。

可是,地震波的能量在傳播過程中也會慢慢衰減,就像在演唱會的搖滾區時,在擴音器旁往往感覺聲音震耳欲聾,但隔了二、三十公尺之外,音量就會變得比較適中,但到了會場外,又會變得不是那麼清楚一樣。所以無論是地震的震源太深、或是震央離我們太遙遠,地震波的能量都會隨著距離衰減,一般來說震度都會變得比較小。

「所以,只要把那個謠言的台北規模 5.0 改為震度 5 弱,說法就比較合理了嗎?」阿雲說。

「可是,影響震度的因素還有很多,像是我們腳下的岩石性質,也是影響震度的重要因素。」阿寶說。

場址效應:像布丁一樣的軟弱岩層放大震波

原本我們都會覺得,如果地震釋放能量的方式就像是聲音或是爆炸一般,照理說等震度圖(地表的震度大小分布圖)上會呈現同心圓分布,但因為地質條件的差異,分布上會稍微不規則一些,只能大致看出震度會隨著離震央越遠而越小。地震學上有一個專有名詞叫做「埸址效應」,指的就是因為某些特殊的地質條件下,反而讓距離震央較遠的地方但震度被放大的地質條件。其中最常見的就是「軟弱岩層」和「盆地」兩種條件,而且這兩種還常常伴隨在一起出現,像是 1985 年的墨西哥城大地震,便是一個著名的例子。

影片:「場址效應」是什麼? 布丁演給你看

墨西哥城在人們開始在這邊發展之前,是個湖泊,湖泊中常有鬆軟的沉積物,而當湖泊乾掉之後,便成了易於居住與發展的盆地。雖然 1985 年發生的地震規模達 8.0,但震央距離墨西哥城中心有 400 公里,照理說這樣的距離足以讓地震波大幅衰減,而地震波傳到盆地外圍時,造成的加速度(PGA)大約只有 35gal,在臺灣大約是 4 級的震度,然而在盆地內的測站,卻觀測到 170gal 的 PGA 值,加速度放大了將近五倍,換算成震度,也可能多了一至二級的程度,也造成了相當程度的災情。盆地裡的沉積物,就像是裝在容器裡的布丁一樣,受到搖晃時,會有更加「Q 彈」的晃動!

1985 年墨西哥城大地震的等震度圖。圖/wikipedia

因此,在臺灣,雖然臺北都會區並沒有比其他區有更多更活躍的斷層,但地震風險仍不容小覷,因為臺北也正是一個過去曾為湖泊的盆地都市,仍有一定程度的地震風險,也需要小心來自稍遠的地震,除了建築需要有更強靭的抗震能力,強震警報能提供數秒至數十秒的預警,也多少讓人們能即時避災。

斷層的方向與震源破裂的瞬間,也決定了等震度圖的模樣

阿雲似懂非懂的接著問:「可是啊,為什麼有的時候大地震的等震度圖長得很奇怪,而且有些時候震度最大的地方都離震央好遠呢!也太巧合了吧?」

「這並不是巧合,因為震央下方的震源,指的其實是地震發生的起始點,並不是地震能量釋放最大的地方啊!」阿寶繼續解釋著。

「蛤!為什麼啊?」阿雲抓抓頭,一邊思考著。

地震是因為地下岩層破裂產生斷層滑動而造成的,雖然不是每個地震都會造成地表破裂,但目前科學家大多認為,地震的破裂只是藏在地底下,沒有延伸到地表而已,而且從地震的震度,也可以看出地底下斷層滑移的特性。

斷層在滑動時,主要的滑動和地震波傳出的地方,會集中在斷層面上某些特定的「地栓」(Asperity)之上,這些地栓又被認為「錯動集中區」,而通常透過傳統的地震定位求出來的震源,其實只是這些地栓中,最早開始錯動的地方。但實際上,整個斷層錯動最大的地方,往往都不會在那一開始錯動的地方,就像是我們跑步時,跑得最快的瞬間,不會發生在起跑的瞬間,而是在起跑後一小段的過程中,而錯動量最大的區域,才會是能量釋放最大的地方。而或許是小地震的地栓範圍小,震央幾乎就在最大滑移區的附近,因此也看不太出來,通常規模越大,震源的破裂行為會隨著時間傳遞,此效應才會越明顯。

震源與震央位置示意圖。圖/中央氣象局

那麼斷層上的地栓位置能否確認?這仍是科學上的難題,但近年來科學進展已經能讓我們透過地震波逆推斷層上的錯動集中區,至少可以透過地震波逆推斷層破裂滑移的型式,得以用來比對斷層破裂方向對震度分布的影響。以 2016 年臺南—美濃地震為例,最大錯動量的地區並不在震央所在的美濃附近,而是稍微偏西北方的臺南地區,也就是因為從地震資料逆推後,發現斷層在破裂時是向西北方向破裂。而更近一點的 2018 年花蓮地震,錯動量大、災害多的地方,也是與斷層破裂方向一致的西南方。

一張含有 地圖 的圖片  自動產生的描述
2016 年臺南美濃地震的等震度圖。圖/中央氣象局

透過更多的分析,現在也逐漸發現破裂方向性對於大地震震度分布的影響確實是重要議題。而雖然我們無法在地震發生之前就預知地栓的位置,但仍可從各種觀測資料作為基礎,針對目前已知的活動斷層進行模擬,就能做出「地震情境模擬」,並且由模擬結果找出可能有高危害度的地區,就能考慮對這些地區早先一步加強耐震或防災的準備工作。

多知道一點風險和危害度,多一份準備以減低災害

但是,直到目前為止,我們仍無法確知斷層何時會錯動、錯動是大是小。科學能給我們的解答,只能先評估出斷層未來的活動性中,哪個稍微大一些(機會小的不代表不會發生),或者像是斷層帶附近、特殊地質特性的場址附近,或許更要小心被意外「放大」的震度。而更重要的是,當地震來臨前,先確保自己的住家、公司或任何你所在的地方是安全還是危險,在室內要小心高處掉落物、在路上要小心掉落的招牌花盆壁磚、在鐵路捷運上要注意緊急煞車對你產生的慣性效應…多一些及早思考與演練,目的就是為了防範不知何時突然出現的大地震,在不恐慌的情況下保持適當警戒,會是對你我都很重要的防震守則!

【參考文獻】

鳥苷三磷酸 (PanSci Promo)_96
4 篇文章 ・ 7 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia
網站更新隱私權聲明
本網站使用 cookie 及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策