分享本文至 E-mail 信箱
學術引用格式
MLA
APA
EndNote(.enw)

教電腦「看」世界:電腦也能當球賽戰術分析員!

為什麼要研究「電腦視覺」?

「電腦視覺(computer vision)」是研究怎麼讓機器「看」這個世界。在相機、手機、監視器、行車紀錄器等設備無所不在的今天,人類社會中的視訊資料量,前所未有地巨大。中研院資訊所特聘研究員廖弘源與團隊,教電腦懂得偵測、識別、分析這些影像訊息,進而做出判斷或行動,如此可衍生各種重要的應用,如人臉辨識、物件偵測、車輛追蹤、街景分析等。

輕按快門,相機可以快速找到人臉對焦;機場快速通關窗口,機器能在幾秒鐘之內認出你是誰;裝一台攝影機,就可以計算某段時間內有多少人車經過……「電腦視覺」加上「機器學習」技術的進步,讓我們的生活更加安全及便利。

不過,電腦可不是一開始就這麼聰明的。

研究電腦視覺及機器學習,設法讓電腦變聰明的廖弘源博士。圖/張語辰提供;黃楷元設計

教電腦看世界 特徵辨認第一課

電腦「看」世界的方式,和你我很不一樣。在我們眼中,一張圖畫裡可能有人物有風景。但在電腦「眼」中,卻只是幾萬幾億個不同顏色的小點(其實就是像素,pixel),以某個順序排列起來而已。

當「人眼看世界」時,可以有邏輯地思考、解釋眼前的人事物。圖/廖弘源提供

但「電腦看世界」時,一棟建築或一個碼頭,在電腦眼中只是一堆像素、或一串位元。圖/廖弘源提供

中央研究院資訊所特聘研究員廖弘源,窮畢生之力,都在教電腦怎麼「看」世界:從 0 與 1 組合成的數位世界中,找出各種「特徵」、並據此識別出特定的物件,進而判斷視訊資料的意義。

比方說,媽媽今天燙了個捲捲頭回家,爸爸可能會一時之間認不出來,但電腦依然能辨認這位捲髮女士是媽媽,因為五官並沒有改變。廖弘源和研究團隊在 2001 年發表的論文,探討此一問題,證明「五官特徵」才是電腦辨識人臉的依據,而非五官之外的髮型、衣著、首飾等,此知識讓業界的臉部辨識系統發展地更精準,也成為這領域近廿年來必讀的文獻之一。

以「識別」與「比對」為核心,電腦視覺延伸出很多用途。廖弘源和研究團隊廿多年來開發出了多項創新技術,像是人臉和車牌的辨識系統,現在已是治安保全的重要利器;而數位檔案加上「雞尾酒浮水印」,則可以防範辛苦的智慧結晶被盜用。

妙手回春 老相片老電影重獲新生

2006 年起,廖弘源接手另一項艱難任務:「數位典藏與數位學習國家型科技計畫」。面對龐大的數位典藏檔案,首要工作就是快速有效地判讀、註解、並擷取多媒體內容。多媒體資料不只圖片,還包括影片。影片等於是一秒鐘 30 張圖片串接在一起,再加上聲音,資訊量非常龐大,因此分析難度,跟簡單的圖片不可同日而語。

另外一個大難題是,許多珍貴的老膠捲,有的被蟲蛀、有的甚至發霉了,眼看就要損毀。還好,廖弘源研究團隊成功打出一記「還我漂亮拳」!一連串視訊篡改(video inpainting)的研究,應用在數位修補技術上,成功幫受損的照片或影片「回春」。

先要能「篡改」,才有能力「修復」。

什麼是視訊篡改?目的不是要捏造不存在的歷史、或是製造虛構的畫面,但透過「無中生有」的原理,卻可以還原已經被破壞的元素。像下圖照片所示,原本斑駁陳舊,但電腦程式可以自動擷取摺痕周邊的影像資訊,用類似「模擬」的方式,產生出原本不存在於照片上的元素,把缺損給填補起來。

充滿歲月痕跡的老照片(左),按一個鍵,色調不再泛黃、摺痕也消失無蹤(右) 。圖/廖弘源提供;黃楷元設計

要修補動態的影片更加困難,廖弘源團隊做出了領先世界的創新研究,採用一種 ISOMAP 技術,以非線性的方式降低維度,不但減少了影片資料運算所需的記憶容量,還能用空間的轉換,填補上被破壞的片段,讓動作看起來自然而連續。許多發霉的老膠捲、經典電影或相片,在這項技術之下,重獲新生。

人連續的動作,經過 ISOMAP 技術進行轉換後,連結連續姿態變化的軌跡。圖/廖弘源提供;黃楷元、張語辰設計

人工智慧當道 電腦視覺技術突飛猛進

以上所有研究與技術,在 2012 年遇到了一個重大分水嶺,那就是「深度學習(deep learning)」技術的應用。這是一種類神經網絡研究,也就是用數學模型去模擬生物中樞神經的結構和功能。

早期,這樣的研究受限於電腦運算速度,隨著電腦效能大幅提升,深度學習的成熟也一日千里。日前喧騰一時的 Google Alpha Go ,就是藉由輸入了無數的棋譜讓電腦進行深度學習,選出最可能獲勝的落子位置,逐一擊敗各國頂尖職業圍棋選手。

而在電腦視覺領域的國際盛會──大規模視覺辨識競賽(Large Scale Visual Recognition Challenge, ILSVRC),主辦單位提供 1000 類超過 120 萬張的影像,讓參賽團隊設計的程式去判斷類別。 2010 年首次舉辦時,表現最佳的系統錯誤率仍高達 28% 。但來到分水嶺的 2012 年,透過深度學習技術,錯誤率大幅降低到 16% 。 2015 年更是一舉突破人類極限,錯誤率達到 3.7%(人眼辨識的極限是 5%),正式宣告,電腦視覺比人類更精準的時代來臨。

廖弘源的研究團隊,也著力於此,開展了兩項創新的研究。第一個,是「籃球進攻戰術分析」。電視轉播的球賽,常聽球評或教練,戰術分析得頭頭是道,未來,透過深度學習,可以讓電腦直接從比賽的影片中,球員跑動的軌跡,就判讀出這一波進攻是打什麼戰術。

電腦先擷取球賽的片段,辨認出移動的球員(上圖),然後轉換成平面,測量移動的軌跡與速度 (中圖),最後,透過數學函數的分析,比對資料庫,找出相符的戰術(下圖)。圖/廖弘源提供;黃楷元設計

另一個研究則是「演唱會片段自動拼貼(mashup)」。一場演唱會,可能有數百個粉絲,從不同角度、不同距離,拍下了不同片段,上傳到 YouTube 上。那麼,有沒有可能,讓電腦自動挑出這些片段,然後重新剪輯成高品質的完整演唱會影像呢?這項大工程有許多問題,等著廖弘源研究團隊一一克服。

他們先用深度學習技術,讓電腦分辨影像中的不同物件(歌手、舞台、樂器、觀眾等),接著再用另一套模式(Error-Weighted Deep Cross-Correlation Model, EW-Deep-CCM)對影片的每一個鏡頭進行分類,辨認出是遠景、中景、近景、或是特寫。然後還要比對音訊,整理出影片的正確時間順序。最後,才依照順序、分鏡邏輯、和情緒鋪陳,組合出最佳的影片。

不同角度、不同距離、不同段落的演唱會影片,混搭拼貼成完整的演出視訊。圖/廖弘源提供;黃楷元設計

為了「教」電腦分析這些資訊,廖弘源笑稱,自己看了無數的籃球影片,從不會打球變成了戰術大師;看了幾百場演唱會,也讓他從音痴化身成音樂總監。受訪時,廖弘源神采奕奕地談著這些研究,言談中除了自豪,更多的是一種身為「科學家」的使命感,強調無論做什麼研究,要當具有開創性的「科學家」,而不只是依循既定方法的「工程師」。

人類持續進步,電腦也是。我們過去總認為,電腦是工具,只能幫我們處理機械化的工作。但廖弘源博士兩個最新研究之中,都包含著非常複雜的深度學習運算技術,若研發成熟後,人工智慧在影片處理上的技巧,將會突飛猛進。或許,「電腦藝術家」誕生的一天,指日可待!

延伸閱讀:

  • 執行編輯|黃楷元;美術編輯|張語辰

本著作由研之有物製作,以創用CC 姓名標示–非商業性–禁止改作 4.0 國際 授權條款釋出。

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位

想要耳聽分享,嘴吃熱炒、手領好書、同時認識一大群愛科學的朋友嗎?

「生猛科學」的特色是:

  1. 只在台灣南部舉辦(精準一點的定義是雲林以南,一直到屏東)。
  2. 只找當地最生猛的科學人擔任講者。
  3. 只談在地的科學,或是在地人最關注的科學。
  4. 只在最生猛的生猛熱炒舉辦。

我們希望透過「生猛科學」系列活動,更認識在地科學社群,並且讓在地的科學除了讓更多在地人知道以外,也透過PanSci的網絡傳得更遠。好久沒辦了想要見見最生猛的你,限量 25 個名額!報名還可獲得科普好書一本,原價800元,現在只要600元!

[報名 10/1 (日)生猛科學@高雄]

關於作者

研之有物│中央研究院

研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook