看圖說故事對人類來說,是輕鬆好玩的事,但對 AI 來說,卻是巨大挑戰,因為這代表 AI 必須看出圖中有哪些物件、理解圖片意義、能夠生成文句,還要看懂圖片間的因果邏輯。在中研院資訊科學研究所古倫維副研究員的努力下, AI 看圖說故事的能力有了很大的進展。她的模型有什麼獨特之處呢?跟著研之有物一起來瞧瞧!
重點來了!在「選角」階段, AI 會先以機器學習的結果,找出最適合說故事的「角色組合」,尤其是面對連續圖片。這就好比張曼玉、梁朝偉、成龍三個演員,前兩個主要演愛情片,第三個以武打戲為主,如果第一張照片選了張曼玉,第二張照片應該選梁朝偉,生成的故事會比較好看。
-----廣告,請繼續往下閱讀-----
但目前 AI 選角部分還不夠靈光,有時仍會發生如「張曼玉配成龍」的選角名單。古倫維的兩階段設計讓人類可在「選角」階段介入修改。實際例子如:圖片中有小男孩、天空、腳踏車三個概念。AI 從上圖抽取出的概念可能是「小男孩」、「天空」,最後生成的故事可能是「一個小男孩在天空下」…… 滿無聊的。但人類可以把「天空」改成「腳踏車」,機器最後就可能生成「一個小男孩騎著腳踏車。」嗯,是不是比較有故事性了?
最後,人類再將修改後的選角和故事大綱,交給 AI 產生整個故事。這種「先選角、打草稿,再說故事」的方式,最後產生的故事比較不會無聊或是不合理,更接近人類說出的故事。
為了增加 AI 的想像力,古倫維也在模型中納入「知識庫」,幫 AI 增加故事的知識。例如圖片中有人與馬,如果沒有知識庫,AI 可能只能生成「有一個人與一匹馬」這種平淡的句子。但知識庫可以補充人與馬關聯的知識,包括人可以騎馬、養馬等等,讓 AI 有機會說出「有一個人騎著自己養的馬」比較具故事性的句子。「當然 AI 也可能從大量的故事中以機器學習取得『很多人都會騎馬、養馬』的知識。但知識庫的最大功用,就是直接提供這個知識給 AI ,縮短學習歷程。」 古倫維解釋。
更重要的是,知識庫讓 AI 更容易解讀出圖片之間的關聯。如 VIST 競賽的題目就是包含了五張圖片的圖組,在知識庫的協助下, AI 比較容易找出各別圖片的概念之間的關聯,說出的故事會比較連貫,具有因果關係。
-----廣告,請繼續往下閱讀-----
AI 是完全沒有想像力的,但若透過知識庫給它知識,這些知識在故事中呈現出來的,就像是 AI 的想像力。
電腦看圖說故事的範例。No KG 代表機器在不添加額外知識時所產生的故事,Visual Genome 與 Open IE 古倫維團隊用兩個不同的知識庫分別產生的故事,GLAC 是除了古倫維的模型外目前成果最好的模型。由上可知,知識庫的確能幫助故事的上下文連結。最後的 Human 是真人所寫的故事,包含了許多圖片中沒有的知識,甚至精神性的內容。 圖說美化│林洵安 資料來源│古倫維
說了半天,但 AI 會看圖說故事,到底能幹嘛?難道只是幫貼圖寫寫圖說?以研究的層面來說,如果 AI 能看圖說故事,代表 AI 在理解圖片、文字分析及因果邏輯等方面,都達到一定的水準,代表 AI 語言能力更加接近人類。在實際應用上, 可以為圖文創作者提供故事草稿,或是對於常常需要撰寫廣告文案、出差報告的人,能夠很快從圖像生成文本,人類只要略做修改潤飾即可 (小職員計畫通!)。
-----廣告,請繼續往下閱讀-----
但更重要的是,機器人也能因此更有溫度!古倫維與臺大人工智慧與機器人研究中心的傅立成教授合作,希望透過 AI 看圖說故事的技術,讓居家照護機器人更有「人味」,會主動關懷人類。因為居家照護機器人在家中「看見」的一切,其實就是一張張的圖, AI 可以透過這些「圖」形成可能的故事,再轉化為暖心的問句。
AI 看圖說故事的能力,可讓照顧居家照護機器人了解眼前的生活情境,具有找話題的能力,變得溫暖許多。 圖片來源│iStock
如此一來,居家照護機器人不再只是被動的處理人類需求,相反的,「說故事的能力賦予了 AI 機器人找話題的功能。」古倫維笑著解釋,機器人從此不再詞窮,可以主動關心人類,與人類互動聊天,讓機器人變得溫暖許多。看來 AI 看圖說故事,不只是寫寫圖說、幫忙解決麻煩的出差報告,在不遠的未來,更是拉近我們與機器人距離的關鍵所在呢。
同樣地,如果我們給 AI 一含所有物質之性質的資料庫,然後告訴它如何尋找「規律」(pattern),相信它會非常勝任地發現許多具有某種特性的「新物質」、「新藥物」、甚或告訴我們如何製造它們(有機合成的資料庫)。但是 AI 雖然知道哈密瓜的所有性質(資料庫),可是它會想到哈密瓜含有能大量分泌青黴素的菌株、即時在第二次世界大戰中拯救了上百萬士兵的生命嗎(見後)?我覺得後者不是邏輯的問題,是沒辦法訓練的,因此 AI 不能「真正創造」不是依靠邏輯的發現。這正是本文所要談的:許多科學大突破都不是靠訓練或邏輯分析的!
-----廣告,請繼續往下閱讀-----
視眾人所見視,思眾人所未思
牛頓的傳記《艾薩克·牛頓爵士生平回憶錄》(Memoirs of Sir Isaac Newton’s Life)於1752年出版;作者斯圖克利(William Stukeley)在書中轉述:「晚餐後,天氣溫暖,我們去了花園,在幾棵蘋果樹的樹蔭下喝茶……他(牛頓)告訴我,他當時的處境和以前一樣,剛剛想到萬有引力的概念。當他正沉思時,一個蘋果掉了下來。他心想:『為什麼蘋果總是垂直落到地上,永遠不會向上或向一側掉落呢?……』,這使他得出結論:地球一定具有『引力』,從而發展出他的萬有引力理論。」
早在西元前 4 世紀左右,亞里斯多德(Aristotle)及歐幾里德(Euclid)等希臘哲學家就為自然哲學和邏輯奠定了基礎。樹上的水果都是往地面掉,這是任何小孩都知道的「常識」,但為什麼卻等了 1700 年才引起牛頓的注意?我們不知道為何牛頓會想到這個問題,但 AI 也會注意到這個現象嗎?如果會,它會先想到萬有引力或是直接跳到更精確的愛因斯坦廣義相對論(見後)呢?
一位正在自由下落的人不會感覺到自己的重量,那不是等於漂浮在沒有任何重力的外太空空間嗎?如果加速度可以抵消重力,那麼在沒有重力的情況下,加速度本身不是可以模擬重力,產生與真實重力沒有區別的人造重力嗎?愛因斯坦稱上面這一發現為「等效原理」(Equivalence Principle):我們雖然不知道重力是什麼,但其現象可以用加速度來模擬!這一想法啟動了愛因斯坦嘗試改變牛頓重力論的八年艱苦抗戰,於 1915 年 11 月完成了人類有史以來最美麗的物理理論━「廣義相對論」(General Theory of Relativity)。100 多年後的今天,愛因斯坦這一透過想像力來推測的理論仍然在指引著物理學家們去瞭解宇宙的基本特徵!怪不得愛因斯坦後來大膽地稱它為「我一生中最幸運的靈感」。
好吧,就假設 AI 像愛因斯坦一樣也有「最幸運的靈感」,發現了廣義相對論。可是後來物理學家瞭解到了愛因斯坦的「等效定理」事實上不完全正確,是有限制的,也就是說它只是一種近似的基本定律,只適用於一個局部、無限小的時空區域內。哈,如果AI比人類聰明,怎麼會在邏輯上犯下這個錯誤呢?如果不犯這個錯誤,它能發現廣義相對論呢?
愛因斯坦真大膽:一個可以用實驗來確定的光速,怎麼可以定為「公設」呢?光速與發射體運動狀態無關不是完全違反了我們日常生活的經驗(如聲速)嗎?愛因斯坦在其時鐘「同步程序」的假想實驗裡魔術般地導入了他的公設:光在任何方向的速度都是一樣的 c 值!完全忽略了當時幾乎所有物理學家都相信光是在「以太」中傳播的理論。
1924 年,一位名不見經傳,任教於東巴基斯坦的講師波思 (Styendra Bose) 在一篇 1500 字的論文裡做了一個誤打誤撞、連他自己本人都不知道、在整篇論文中隻字未提的重要及創新性假設:光量子是不可分辨的!在當時,所有的物理學家都認為光量子像銅板一樣是可以分辨的(我們可以分辨哪個是 A 銅板、哪個是 B 銅板、…),因此兩個銅板出現「一正及一反」的或然率是 2/4;但如果它們不能分辨呢?則出現「一正及一反」的或然率將變成 1/3。沒想到這一「錯誤」的假設後來竟成為打開量子統計力學的鑰匙!超強邏輯的AI會犯這種錯誤嗎?
在「發現能治療糖尿病的胰島素—胰島素與生技產業的誕生(上)」一文裡,我提到了「….將狗的胰臟割除,發現這隻可憐狗整天口渴及隨地小便。數日後,一位助手覺得實驗室內的蒼蠅好像突然多了起來,尤其是在狗小便過的地板。分析狗尿及其血液後,梅倫(Joseph von Mering)及明考斯基(Oskar Minkowski)很驚奇地發現裡面充滿了糖份。」顯然地,胰腺具有調解體內糖代謝的功能,它一旦受損將導致糖尿病。就這樣,法國兩位外科手術醫生無意中發現了「困擾」人類三千多年之糖尿病的病源━胰臟分泌物「胰島素」失調!這不是透過邏輯分析得到的結果,AI能做到嗎?