1

4
0

文字

分享

1
4
0

打造「聊」癒系機器人!看圖說故事,AI 也略懂略懂

研之有物│中央研究院_96
・2020/08/18 ・3503字 ・閱讀時間約 7 分鐘 ・SR值 479 ・五年級

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位。

  • 採訪編輯|郭雅欣;美術編輯|林洵安

AI 如何看圖說故事?

看圖說故事對人類來說,是輕鬆好玩的事,但對 AI 來說,卻是巨大挑戰,因為這代表 AI 必須看出圖中有哪些物件、理解圖片意義、能夠生成文句,還要看懂圖片間的因果邏輯。在中研院資訊科學研究所古倫維副研究員的努力下, AI 看圖說故事的能力有了很大的進展。她的模型有什麼獨特之處呢?跟著研之有物一起來瞧瞧!

俗話說得好:「發文不附圖,此風不可長。」不論你發的是爆卦文、閒聊文還是業配文,有圖更容易晉身流量熱文。不過近年來,社群網站發文的風向漸漸有了改變,從「發文附圖」轉變成「發圖附文」,我們總是先來一張照片,再配上相應的描述文字。接下來,我們的發文習慣還會怎麼改變?

或許,未來你拍下一張照片上傳社群網站,電腦就會自動「看圖說故事」,為你的照片腦補一段說明文字,節省你的思考時間。

讓電腦學會「看圖說故事」的伎倆,正是中研院資訊科學研究所的古倫維副研究員正在鑽研的主題之一。她的主要研究領域是人工智慧( AI )的自然語言處理,在因緣際會下,接觸到一個 AI 看圖說故事的競賽: Visual Storytelling ( VIST ),開啟了她對 AI 看圖說故事的興趣。

中研院資訊科學研究所的古倫維副研究員,主要研究領域是人工智慧( AI )的自然語言處理,現正開發如何讓 AI 不只會說故事,還會看圖說故事。
攝影│林洵安

電腦如何學會「看圖說故事」?目前學界使用「機器學習」,簡單來說,就是讓電腦從大量的圖文搭配組合,從中學習看到怎樣的圖片,應該說出怎樣的故事。中研院資訊所古倫維副研究員說:「其實一開始我們做得並不特別好。我們跟其他參加競賽的人一樣,用機器學習的方法,把圖和對應的文字丟進電腦,讓機器自己學習最佳的圖文搭配。然而機器學習幾乎是軍備競賽了!誰的電腦計算能力更強,得到的模型更複雜,生成的文字就會更好。」

先選角、打草稿,再寫故事

在軍備競爭不足的情況下,古倫維決定採取不同的策略:「既然完全由 AI 看圖說故事的效果不夠好,能不能在故事生成的過程中,有一個人類可以介入改善的步驟。」所以她把原來的做法分成了兩個階段,先從圖片抽取語意,接著再生成文字故事。

語意抽取,是指先從個別圖片中選出用來說故事的概念(如同電影選角),用知識庫找出概念之間的關係,建立圖片的關聯,再為這些圖片擬定最好的草稿(如同電影故事大綱)。

重點來了!在「選角」階段, AI 會先以機器學習的結果,找出最適合說故事的「角色組合」,尤其是面對連續圖片。這就好比張曼玉、梁朝偉、成龍三個演員,前兩個主要演愛情片,第三個以武打戲為主,如果第一張照片選了張曼玉,第二張照片應該選梁朝偉,生成的故事會比較好看。

但目前 AI 選角部分還不夠靈光,有時仍會發生如「張曼玉配成龍」的選角名單。古倫維的兩階段設計讓人類可在「選角」階段介入修改。實際例子如:圖片中有小男孩、天空、腳踏車三個概念。AI 從上圖抽取出的概念可能是「小男孩」、「天空」,最後生成的故事可能是「一個小男孩在天空下」…… 滿無聊的。但人類可以把「天空」改成「腳踏車」,機器最後就可能生成「一個小男孩騎著腳踏車。」嗯,是不是比較有故事性了?

最後,人類再將修改後的選角和故事大綱,交給 AI 產生整個故事。這種「先選角、打草稿,再說故事」的方式,最後產生的故事比較不會無聊或是不合理,更接近人類說出的故事。

古倫維的故事生成模型將產生故事的過程分成「語意抽取」及「故事生成」兩個階段。
圖說重製│黃曉君、林洵安
資料來源│古倫維

知識庫,AI 想像力的補充包

為了增加 AI 的想像力,古倫維也在模型中納入「知識庫」,幫 AI 增加故事的知識。例如圖片中有人與馬,如果沒有知識庫,AI 可能只能生成「有一個人與一匹馬」這種平淡的句子。但知識庫可以補充人與馬關聯的知識,包括人可以騎馬、養馬等等,讓 AI 有機會說出「有一個人騎著自己養的馬」比較具故事性的句子。「當然 AI 也可能從大量的故事中以機器學習取得『很多人都會騎馬、養馬』的知識。但知識庫的最大功用,就是直接提供這個知識給 AI ,縮短學習歷程。」 古倫維解釋。

更重要的是,知識庫讓 AI 更容易解讀出圖片之間的關聯。如 VIST 競賽的題目就是包含了五張圖片的圖組,在知識庫的協助下, AI 比較容易找出各別圖片的概念之間的關聯,說出的故事會比較連貫,具有因果關係。

AI 是完全沒有想像力的,但若透過知識庫給它知識,這些知識在故事中呈現出來的,就像是 AI 的想像力。

電腦看圖說故事的範例。No KG 代表機器在不添加額外知識時所產生的故事,Visual Genome 與 Open IE 古倫維團隊用兩個不同的知識庫分別產生的故事,GLAC 是除了古倫維的模型外目前成果最好的模型。由上可知,知識庫的確能幫助故事的上下文連結。最後的 Human 是真人所寫的故事,包含了許多圖片中沒有的知識,甚至精神性的內容。
圖說美化│林洵安
資料來源│古倫維

巧妙切開「語意抽取」與「生成文本」

兩階段生成故事的方法還有一個優點,就是可善用大量的「圖片辨識」與「故事文本」資料庫,避開「圖文搭配」資料的缺乏。

現今的「圖片辨識」技術和資料庫非常成熟,可以精準的從圖片中抽取出各式各樣的概念。另一方面,說故事是人類從古至今不斷從事的活動,留下了大量的「故事文本」。相較之下,看圖說故事的「圖文搭配」資料量卻相當少,需要有人刻意去蒐集圖組、撰寫文字,古倫維說:「這種圖文搭配的資料必須人工建立,能有一萬組就很厲害了,但這個數量對於機器學習來說卻是遠遠不夠的。」

古倫維則把生成故事的過程拆成「語意抽取」與「生成文本」兩個階段,第一階段可利用精熟的圖片辨識技術和資料庫,抽取故事概念;第二階段再運用故事文本資料庫,讓機器學習如何將第一階段抽取(並由人類修改過)的概念,組合成漂亮的故事,巧妙避開了「圖文搭配」資料不足的難題。

把「語意抽取」與「生成文本」切開的話,兩個階段都可以利用幾千萬筆的既有資料,供機器學習。

腦補,讓機器更有溫度

說了半天,但 AI 會看圖說故事,到底能幹嘛?難道只是幫貼圖寫寫圖說?以研究的層面來說,如果 AI 能看圖說故事,代表 AI 在理解圖片、文字分析及因果邏輯等方面,都達到一定的水準,代表 AI 語言能力更加接近人類。在實際應用上, 可以為圖文創作者提供故事草稿,或是對於常常需要撰寫廣告文案、出差報告的人,能夠很快從圖像生成文本,人類只要略做修改潤飾即可 (小職員計畫通!)。

但更重要的是,機器人也能因此更有溫度!古倫維與臺大人工智慧與機器人研究中心的傅立成教授合作,希望透過 AI 看圖說故事的技術,讓居家照護機器人更有「人味」,會主動關懷人類。因為居家照護機器人在家中「看見」的一切,其實就是一張張的圖, AI 可以透過這些「圖」形成可能的故事,再轉化為暖心的問句。

想像一下,未來居家照護機器人看見老人家在廚房,故事劇情可能是「他要煮飯」,於是問出:「今晚想吃什麼?需要幫忙嗎?」當老人拿出相簿緬懷過去,AI 也能從舊照片解讀可能故事,轉化成聊天的問句:「照片中的這個人是誰啊?你們去哪裡玩?」還能變身孩子最愛的說故事姊姊!AI 可能從儲存的繪本資料庫中,隨機抽出不同圖畫重新組合,說出全新的故事。

會看圖說故事的 AI ,可以從眼前的情景連結到事件或情感,就像人類的腦補一般,而這些腦補就是故事。

AI 看圖說故事的能力,可讓照顧居家照護機器人了解眼前的生活情境,具有找話題的能力,變得溫暖許多。
圖片來源│iStock

如此一來,居家照護機器人不再只是被動的處理人類需求,相反的,「說故事的能力賦予了 AI 機器人找話題的功能。」古倫維笑著解釋,機器人從此不再詞窮,可以主動關心人類,與人類互動聊天,讓機器人變得溫暖許多。看來 AI 看圖說故事,不只是寫寫圖說、幫忙解決麻煩的出差報告,在不遠的未來,更是拉近我們與機器人距離的關鍵所在呢。

延伸閱讀

本文轉載自中央研究院研之有物,原文為《打造「聊」癒系機器人!看圖說故事,AI 也略懂略懂》,泛科學為宣傳推廣執行單位。

文章難易度
所有討論 1
研之有物│中央研究院_96
255 篇文章 ・ 2334 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

2

2
1

文字

分享

2
2
1
2022 年《Science》年度十大科學突破(上):持續進化的 AI 與韋伯太空望遠鏡
PanSci_96
・2022/12/30 ・3733字 ・閱讀時間約 7 分鐘

回顧 2022 年,有沒有讓你印象特別深刻的科學新聞呢?約莫兩星期前,《Science》雜誌公布了今年的十大科學突破,從農業到藝術、從細菌到宇宙、從百萬年前的生態到人類的未來,每一項突破都和我們的日常生活息息相關。

好啦,廢話不多說,現在就來揭曉答案吧!

十大突破之首——遙望宇宙的韋伯太空望遠鏡

今年,韋伯太空望遠鏡(JWST)帶來的震撼,相信你我都印象深刻。

韋伯發布的第一批照片拍到了 SMACS 0723 星系團。圖/Science

早在 1990 年,哈伯太空望遠鏡發射升空後,科學家就開始規劃下一步。他們不只想看見更遙遠的宇宙,也想透過不同的波長,分析地外生命存在的可能性。

哈伯望遠鏡的觀測波段以可見光為主。確實,紫外線和可見光波長最有利於觀測誕生不久的新星,但隨著數十億年過去,這些新星發出的光,穿過不斷膨脹的宇宙,來到地球,被拉伸到更長的紅外線波長後,哈伯就沒輒了⋯⋯

韋伯望遠鏡可以清楚看見狼蛛星雲的塵埃、氣體雲和碳氫化合物。圖/Science

那麼,要怎麼看見更遙遠的宇宙呢?去年底,歷時 20 年建造、造價 100 億美元的「韋伯太空望遠鏡」順利升空,開啟 150 萬公里的長征。韋伯搭載的科學儀器可以觀測紅外線波段,包括來自宇宙第一批恆星和星系發出的光。

韋伯利用四種不同的紅外線波段觀測系外行星 HIP 65426 b。圖/Science

今年 6 月底,韋伯開始收集數據,三星期後就傳回了第一批深空照片,讓科學家看見了更遙遠、更古老的新星系,徹底改寫我們對宇宙的認識。對於天文學界來說,這是一個充滿奇蹟的時代,韋伯望遠鏡也因此榮登 2022 年最重要的科學突破。

2022 年十大科學突破之首:韋伯太空望遠鏡。影/Science

研發多年生水稻 PR23,減輕農民耕作負擔

盤點世界上最主要的糧食作物,水稻肯定有一席之地!現今,大部分水稻都是一年二至三穫,每年收穫後都得重新種植,對農民來說是非常耗時、費力的工作。

今年 11 月,中國雲南大學農學院的研究團隊在《Nature Sustainability》發表他們十餘年來嘔心瀝血的研究成果——多年生水稻「PR23」。這是長雄野生稻和 RD23 栽培稻的雜交種,不但可以達到和傳統水稻相仿的產量,還可以省下農民的大把時間、精力與成本。

PR23 第一年的稻作成本與傳統水稻差不多,但從第二年開始,農民就可以跳過育秧、犁田、移栽幼苗的步驟,降低約 50% 的人力成本,到了第五年才需要重新種植。

在中國,PR23 的種植面積超過了 15,000 公頃,平均產量則是每公頃 6.8 噸,略高於傳統水稻。根據非洲和東南亞的試驗數據,PR23 還可以改善土壤結構、增加有機質含量、減少梯田和高地的水土流失。

與此同時,科學家也正在觀察兩個潛在問題:一、雜草和病原體是否會積累在田地中,導致 PR23 需要更多除草劑,二、是否會排放更多的一氧化二氮,加劇溫室效應。但目前不可否認的是,多年生水稻有助於降低成本、提高收益,確實是一項重要的突破。

有了多年生水稻,農民每年都能省下好幾週的工作量。圖/Science

誰說 AI 沒創意?AI 的創造力可是超乎想像呢!

說到 AI,有沒有讓你想起去年的十大科學突破呢?沒錯,去年的十大突破之首就是預測蛋白質 3D 結構的 DeepMind 團隊,而在今年,他們著手設計全新的蛋白質,用來開發疫苗、建築材料和奈米機器。

與此同時,DeepMind 發布了 AlphaTensor,用來找出更有效率的矩陣乘法演算法。高中就學過的矩陣是代數中最簡單的運算之一,可以用來壓縮網路資料、辨識語音指令、模擬與預測天氣、生成電腦遊戲圖形等。

另外,DeepMind 還發布了可以自主編寫程式、解決問題的 AlphaCode。在程式解題競賽網站 Codeforces 定期舉辦的比賽中,AlphaCode 甚至打敗了過半的參賽者,取得排名前 54% 的成績,跌破創辦人的眼鏡。

除了科學、數學、程式設計之外,AI 在藝術領域更是大放異彩。

繼 OpenAI 去年發布繪圖軟體 DALL-E 後,今年 4 月發布了進化版的 DALL-E 2,只要輸入幾個字詞,AI 模型就能自動生成圖像。在 9 月,有一位藝術家利用類似的 AI 繪圖工具 Midjourney 奪下美國科羅拉多州博覽會首獎。

此舉在藝術界掀起一股旋風,卻也引來了哲學辯論和道德抨擊,但毫無疑問的是,人類可以借助逐年進化的 AI 拓展創造力,開發出更多、更好的工具。

使用 Midjourney 創作的科羅拉多州博覽會首獎作品。圖/Science

超級華麗的大~大~大細菌!

在你的印象中,細菌是不是都很小、不用顯微鏡就看不見呢?今年 2 月,科學家在法屬西印度群島發現一種肉眼可見的巨無霸細菌——華麗硫珠菌(Thiomargarita magnifica),震驚了生物學界。

一般來說,細菌沒有細胞核和膜狀胞器,遺傳物質都在細胞中自由漂浮,但華麗硫珠菌真的很華麗,不只可以長到 2 公分,比多數細菌大上 5000 倍,而且還有隔間可以容納 1200 萬個基因組——這大概是多數細菌基因總量的 3 倍。

身為一種不應該有膜的原核生物,華麗硫珠菌的結構或許即將改寫原核生物和真核生物的定義,甚至有機會成為一塊拼圖,補足細胞進化過程中缺失的環節。

華麗硫珠菌挑戰了「細菌」的傳統定義。圖/Science

開發新疫苗,呼吸道合胞病毒治療現曙光

在這 COVID-19 肆虐之年,美國感染呼吸道合胞病毒(RSV)的病例數也急遽上升。呼吸道合胞病毒傳染性極強,通常只會引起類似感冒的輕微症狀,但在嬰幼兒身上,這種病毒會使肺部發炎,而在老年人身上,會使既有的心肺疾病惡化。

早在 50 多年前,就有科學家試圖開發呼吸道合胞病毒的疫苗,但在臨床試驗導致 80% 的接種者住院、2 名兒童死亡後,開發就此中斷。後來,科學家發現敗筆在於這種殺死病毒後製成的「滅活疫苗」所引發的抗體較弱,不只殺不掉活生生的病毒,還能反過來幫助病毒破壞氣管。

如今,莫爾豪斯醫學院(Morehouse School of Medicine)開發了能夠引發強效抗體的新疫苗。在輝瑞(Pfizer)和葛蘭素史克藥廠(GSK)進行臨床試驗後,證實這兩種新疫苗可以保護嬰兒和老年人,不會引起嚴重副作用,而在孕婦注射後,也能將抗體傳給胎兒。

雖然過往的失敗讓開發團隊心存疑慮,但目前沒有任何數據顯示疫苗不安全,其中幾種候選疫苗也可能將在明年獲得監管機構批准上市。

RSV 疫苗證實能有效保護易受感染的嬰幼兒和老年人。圖/Science

好啦~這篇到這裡,先介紹前五項突破就好!因為《Science》今年提供的內容實在是太精彩了,為了避免讀者一次閱讀太多字很累,只好拆成上下兩篇⋯⋯看完這篇後,如果你好奇另外五項突破是何方神聖,就來看第二篇吧!

接續下篇:2022 年《Science》年度十大科學突破(下):EBV 病毒與發燒的地球

所有討論 2
PanSci_96
1013 篇文章 ・ 1232 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

0

2
0

文字

分享

0
2
0
數據塑造生活與社會,讓人既放心但又不安?——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/28 ・2760字 ・閱讀時間約 5 分鐘

國民法官生存指南:用足夠的智識面對法庭裡的一切。

數位世界已經改變了我們日常生活的體驗,一個人從早到晚都會接受到大量數據,受益於大量數據,也貢獻大量數據。這些數據龐大的程度,和消化資訊的方式已經太過繁多,人類心智根本無法處理。

與數位科技建立夥伴關係

所以人會本能地或潛意識地倚賴軟體來處理、組織、篩選出必要或有用的資訊,也就是根據用戶過去的偏好或目前的流行,來挑選要瀏覽的新項目、要看的電影、要播放的音樂。自動策劃的體驗很輕鬆容易,又能讓人滿足,人們只會在沒有自動化服務,例如閱讀別人臉書塗鴉牆上的貼文,或是用別人的網飛帳號看電影時,才會注意到這服務的存在。

有人工智慧協助的網路平臺加速整合,並加深了個人與數位科技間的連結。人工智慧經過設計和訓練,能直覺地解決人類的問題、掌握人類的目標,原本只有人類心智才能管理的各種選擇,現在能由網路平臺來引導、詮釋和記錄(儘管效率比較差)。

日常生活中很少察覺到對自動策劃的依賴。圖/Pexels

網路平臺收集資訊和體驗來完成這些任務,任何一個人的大腦在壽命期限內都不可能容納如此大量的資訊和體驗,所以網路平臺能產出看起來非常恰當的答案和建議。例如,採購員不管再怎麼投入工作,在挑選冬季長靴的時候,也不可能從全國成千上萬的類似商品、近期天氣預測、季節因素、回顧過去的搜尋記錄、調查物流模式之後,才決定最佳的採購項目,但人工智慧可以完整評估上述所有因素。

因此,由人工智慧驅動的網路平臺經常和我們每個人互動,但我們在歷史上從未和其他產品、服務或機器這樣互動過。當我們個人在和人工智慧互動的時候,人工智慧會適應個人用戶的偏好(網際網路瀏覽記錄、搜尋記錄、旅遊史、收入水準、社交連結),開始形成一種隱形的夥伴關係。

個人用戶逐漸依賴這樣的平臺來完成一串功能,但這些功能過去可能由郵政、百貨公司,或是接待禮賓、懺悔自白的人和朋友,或是企業、政府或其他人類一起來完成。

網路平臺和用戶之間是既親密又遠距的聯繫。圖/Envato Elements

個人、網路平臺和平臺用戶之間的關係,是一種親密關係與遠距聯繫的新穎組合。人工智慧網路平臺審查大量的用戶數據,其中大部分是個人數據(如位置、聯絡資訊、朋友圈、同事圈、金融與健康資訊);網路會把人工智慧當成嚮導,或讓人工智慧來安排個人化體驗。

人工智慧如此精準、正確,是因為人工智慧有能力可以根據數億段類似的關係,以及上兆次空間(用戶群的地理範圍)與時間(集合了過去的使用)的互動來回顧和反應。網路平臺用戶與人工智慧形成了緊密的互動,並互相學習。

網路平臺的人工智慧使用邏輯,在很多方面對人類來說都難以理解。例如,運用人工智慧的網路平臺在評估圖片、貼文或搜尋時,人類可能無法明確地理解人工智慧會在特定情境下如何運作。谷歌的工程師知道他們的搜尋功能若有人工智慧,就會有清楚的搜尋結果;若沒有人工智慧,搜尋結果就不會那麼清楚,但工程師沒辦法解釋為什麼某些結果的排序比較高。

要評鑑人工智慧的優劣,看的是結果實用不實用,不是看過程。這代表我們的輕重緩急已經和早期不一樣了,以前每個機械的步驟或思考的過程都會由人類來體驗(想法、對話、管理流程),或讓人類可以暫停、檢查、重複。

人工智慧陪伴現代人的生活

例如,在許多工業化地區,旅行的過程已經不需要「找方向」了。以前這過程需要人力,要先打電話給我們要拜訪的對象,查看紙本地圖,然後常常在加油站或便利商店停下來,確認我們的方向對不對。現在,透過手機應用程式,旅行的過程可以更有效率。

透過導航,為旅途帶來不少便利。圖/Pexels

這些應用程式不但可以根據他們「所知」的交通記錄來評估可能的路線與每條路線所花費的時間,還可以考量到當天的交通事故、可能造成延誤的特殊狀況(駕駛過程中的延誤)和其他跡象(其他用戶的搜尋),來避免和別人走同一條路。

從看地圖到線上導航,這轉變如此方便,很少人會停下來想想這種變化有多大的革命性意義,又會帶來什麼後果。個人用戶、社會與網路平臺和營運商建立了新關係,並信任網路平臺與演算法可以產生準確的結果,獲得了便利,成為數據集的一部分,而這數據集又在持續進化(至少會在大家使用應用程式的時候追蹤個人的位置)。

在某種意義上,使用這種服務的人並不是獨自駕駛,而是系統的一部分。在系統內,人類和機器智慧一起協作,引導一群人透過各自的路線聚集在一起。

持續陪伴型的人工智慧會愈來愈普及,醫療保健、物流、零售、金融、通訊、媒體、運輸和娛樂等產業持續發展,我們的日常生活體驗透過網路平臺一直在變化。

網路平台協助我們完成各種事項。圖/Pexels

當用戶找人工智慧網路平臺來協助他們完成任務的時候,因為網路平臺可以收集、提煉資訊,所以用戶得到了益處,上個世代完全沒有這種經驗。這種平臺追求新穎模式的規模、力量、功能,讓個人用戶獲得前所未有的便利和能力;同時,這些用戶進入一種前所未有的人機對話中。

運用人工智慧的網路平臺有能力可以用我們無法清楚理解,甚至無法明確定義或表示的方式來形塑人類的活動,這裡有一個很重要的問題:這種人工智慧的目標功能是什麼?由誰設計?在哪些監管參數範圍裡?

類似問題的答案會繼續塑造未來的生活與未來的社會:誰在操作?誰在定義這些流程的限制?這些人對於社會規範和制度會有什麼影響?有人可以存取人工智慧的感知嗎?有的話,這人是誰?

如果沒有人類可以完全理解或查看數據,或檢視每個步驟,也就是說假設人類的角色只負責設計、監控和設定人工智慧的參數,那麼對人工智慧的限制應該要讓我們放心?還是讓我們不安?還是既放心又不安?

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

聯經出版_96
27 篇文章 ・ 16 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。

0

1
0

文字

分享

0
1
0
AI 的 3 種學習形式:不同的目標功能,不同的訓練方式——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/27 ・2368字 ・閱讀時間約 4 分鐘

搭配不同的任務,人工智慧的應用方式也不一樣,所以開發人員用來創造人工智慧的科技也不一樣。這是部署機器學習時最基礎的挑戰:不同的目標和功能需要不同的訓練技巧。

機器學習最基礎的挑戰:不同目標和功能需配合不同訓練技巧。圖/Pexels

不過,結合不同的機器學習法,尤其是應用神經網路,就出現不同的可能性,例如發現癌症的人工智慧。

機器的 3 種學習形式

在我們撰寫本章的時候,機器學習的三種形式:受監督式學習、不受監督式學習和增強式學習,都值得注意。

受監督式學習催生了發現海利黴素的人工智慧。總結來說,麻省理工學院的研究人員想要找出有潛力的新抗生素,在資料庫裡放入二千種分子來訓練模型,輸入項目是分子結構,輸出項目是抑菌效果;研究人員把分子結構展示給人工智慧看,每一種結構都標示抗菌力,然後讓人工智慧去評估新化合物的抗菌效果。

這種技巧稱為受監督式學習,因為人工智慧開發人員利用包含了輸入範例(即分子結構)的資料集,在這裡面,每一筆數據都單獨標示研究人員想要的輸出項目或結果(即抗菌力)。

開發人員已經把受監督式學習的技巧應用於許多處,例如創造人工智慧來辨識影像。為了這項任務,人工智慧先拿已經標示好的圖像來訓練,學著把圖像和標籤,例如把貓的照片和「貓」的標籤,聯想在一起,人工智慧把圖片和標籤的關係編碼之後,就可以正確地辨識新圖片。

貓貓!圖/Pexels

因此,當開發人員有一個資料集,其中每個輸入項目都有期望的輸出項目,受監督式學習就能有效地創造出模型,根據新的輸入項目來預測輸出項目。

不過,當開發人員只有大量資料,沒有建立關係的時候,他們可以透過不受監督式學習來找出可能有用的見解。因為網際網路與資料數位化,比過去更容易取得資料,現在企業、政府和研究人員都被淹沒在資料中。

行銷人員擁有更多顧客資訊、生物學家擁有更多資料、銀行家有更多金融交易記錄。當行銷人員想要找出客戶群,或詐騙分析師想要在大量交易中找到不一致的資訊,不受監督式學習就可以讓人工智慧在不確定結果的資訊中找出異常模式。

這時,訓練資料只有輸入項目,然後工程師會要求學習演算法根據相似性來設定權重,將資料分類。舉例來說,像網飛(Netflix)這樣的影音串流服務,就是利用演算法來找出哪些觀眾群有類似的觀影習慣,才好向他們推薦更多節目;但要優化、微調這樣的演算法會很複雜:因為多數人有好幾種興趣,會同時出現在很多組別裡。

影音串流服務利用演算法,進而推薦使用者可能喜歡的節目。圖/Pexels

經過不受監督式學習法訓練的人工智慧,可以找出人類或許會錯過的模式,因為這些模式很微妙、數據規模又龐大。因為這樣的人工智慧在訓練時沒有明定什麼結果才「適當」,所以可以產生讓人驚豔的創新見解,這其實和人類的自我教育沒什麼不同——無論是人類自學或是人工智慧,都會產生稀奇古怪、荒謬無理的結果。

不管是受監督式學習法或不受監督式學習法,人工智慧都是運用資料來執行任務,以發現新趨勢、識別影像或做出預測。在資料分析之外,研究人員想要訓練人工智慧在多變的環境裡操作,第三種機器學習法就誕生了。

增強式學習:需要理想的模擬情境與回饋機制

若用增強式學習,人工智慧就不是被動地識別資料間的關聯,而是在受控的環境裡具備「能動性」,觀察並記錄自己的行動會有什麼反應;通常這都是模擬的過程, 把複雜的真實世界給簡化了,在生產線上準確地模擬機器人比較容易,在擁擠的城市街道上模擬就困難得多了。

但即使是在模擬且簡化的環境裡,如西洋棋比賽,每一步都還是會引發一連串不同的機會與風險。因此,引導人工智慧在人造環境裡訓練自己,還不足以產生最佳表現,這訓練過程還需要回饋。

西洋棋比賽中的每一步會引發一連串機會與風險。圖/Pexels

提供反饋和獎勵,可以讓人工智慧知道這個方法成功了。沒有人類可以有效勝任這個角色:人工智慧因為在數位處理器上運作,所以可以在數小時或數日之內就訓練自己幾百次、幾千次或幾十億次,人類提供的回饋相比之下根本不切實際。

軟體工程師將這種回饋功能自動化,謹慎精確地說明這些功能要如何操作,以及這些功能的本質是要模擬現實。理想情況下,模擬器會提供擬真的環境,回饋功能則會讓人工智慧做出有效的決定。

阿爾法元的模擬器就很簡單粗暴:對戰。阿爾法元為了評估自己的表現,運用獎勵功能,根據每一步創造的機會來評分。

增強式學習需要人類參與來創造人工智慧的訓練環境(儘管在訓練過程中不直接提供回饋):人類要定義模擬情境和回饋功能,人工智慧會在這基礎上自我訓練。為產生有意義的結果,謹慎明確地定義模擬情境和回饋功能至關重要。

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

聯經出版_96
27 篇文章 ・ 16 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。