採訪編輯 / 陳妤寧
如今數據的存儲量越來越大,專長為機器發明和人工智慧的台大資工系林守德教授認為,關鍵在於如何從海量資料之中找出對於解答問題真正有用的部份。「大家常覺得大數據好像很神奇,但卻對著數據不知道要問什麼問題。但從應用的角度來說,定義問題才是最關鍵的第一步,才能進一步判斷要使用哪些數據來解答?或是需要多大多小的數據來處理?」舉例來說,如果想預測某個路段下一個小時的車流量,會需要採用什麼數據?需要其他路段的流量資料做搭配嗎?「數據都在那裡,但要做取捨。」林守德說。如果無法先決定什麼問題適合用大數據來解決、一個問題適合由哪些數據來回答,有運算再快的電腦或是再高效的演算法都派不上用場。
不做定義,丟資料讓機器自己學習掌握規律
機器學習(Machine Learning)是大數據分析的一種方法,透過給予電腦大量的「訓練資料(Training Data)」,讓機器從中找出規律、學習如何將資料分群或分類。舉例來說,分類(Classification)的工作可以讓電腦學習判斷如何將大量的資料(input)歸到不同的類別(Output),首先就要給電腦一批資料並告訴電腦不同資料所屬的類別為何,以照片為例,例如告訴電腦這一百張照片是大自然風景、另外五十張照片則是人像,電腦就會從中學習到某種分類的規則,當一張新的照片再被丟進來電腦分析時,電腦便能依據經驗判斷這張照片是風景照還是人像照。
在這過程中,人類並不需要去向電腦解釋、或去定義「何謂風景照」、「如果符合某幾項條件即為人像照」,而是透過不斷的丟相片讓電腦做「模擬考」並給予評分和訂正,電腦久而久之就能掌握分類的規則。「讓數據自己說話」才是機器學習在大數據中的精神。同樣地,以攔截垃圾電郵為例,若需要電腦自動判斷一支影片是不是垃圾電郵,也不用告訴電腦「出現什麼樣的訊息」則為垃圾郵件,而是告訴電腦「這群郵件是垃圾郵件」「另外這群不是」,電腦就會學習掌握這兩批資料的不同之處進而藉此自動產出預測模型。
分群(Clustering)也是利用類似訓練資料的方法,讓機器學習將相似的資料歸為一群,有時候人類沒有足夠多的時間資源把每筆資料分類給電腦訓練,電腦可以自動分群,然後讓人類對每群資料下標籤來定義。例如一百張照片,要求電腦分成兩群、三群、或四群都可以,然後就可以請人類對每群的特性做標記。
多元的資料型態,電腦如何處理?
資料的來源和型態可以很多元,可以是戶外感測器搜集到的資料(如溫濕度,震波),這些資料的特色是因為感測網都鋪在外面,感測到的資料容易有較多的雜訊或遺漏;而網路上的文本資料,因為是人用鍵盤直接打出來的內容,因此資料的信賴度較高,但必須處理同意字等語言上的問題。「如果要調查一部電影在網路上獲得的評價是正面還是負面較多,電腦進行語意分析時要怎麼避免將『反諷』的文字誤判為正面評價呢?」林守德回答道,這個問題同樣可以透過機器學習來改善,訓練電腦從反諷和非反諷的兩批文字中掌握差異和規律。
文字資料雖然並非數字,不過林守德提醒文字資料不意味只能進行質化分析,也可以計算「哪個詞出現最多次」來進行量化分析。不過這一切的前提,必須是資料要先經過「數位化」的過程,即便是手寫的資料,也必須先經過手寫辨識,才能成為電腦可以處理的資料。
跳過分析報表,直接提供最佳決策才是未來大勢
林守德認為,和過去運用統計軟體、計算相對較少量的資料、產生分析報表,資訊人未來重要的任務應該是直接設計有「決策」能力的軟體,直接提供電腦演算後判定最為推薦的決策結果是什麼。例如只需要告訴電腦我有十萬元的預算到日本進行一週的旅遊,就能夠直接得到包含航班、旅館的整套行程規劃,而不必仰賴人力去分別搜尋最優惠的航班和旅館,再土法煉鋼地配對找出時間上可搭配的最佳組合。
「巨量資料技術不只是停留在提供統計分析的結果供人類做決策,未來要直接跳過分析,直接推薦你最佳選擇。電腦推薦的最佳選擇要逐漸比你自己做出的決定更快、更準、更好。」資工人在大數據應用上是如何將預測模型(如演算法)以程式呈現,直接做成一個可被使用的工具。例如目前的高速交易(high speed trading),即時競價(real time bidding)都是電腦取代人類決策的例子。
以 Google Map 而言,由於用戶量大,Google 能夠搜集到的資料回報量也就隨之水漲船高,進而運用回報資料更加優化其地圖服務、提供更精準的資料和分析結果,這點是其他新進場的地圖公司較難和 Google 比拼的原因。目前線上地圖目前提供的「路徑規劃」功能,從僅僅計算兩點距離告知「最短路徑」,到未來將能夠加入交通尖峰時間狀況,意外事故,甚至天氣、群眾活動等事件的資料提供「最佳路徑」的選擇,林守德認為多樣化的資料,就能協助讓運算模型發展得更為精緻,而這個優化的過程正是決策工具如何不斷優化的關鍵。
社群網路和個人化推薦
大數據在社群網路上最顯著的應用莫過於 Facebook 上的個人化推薦和廣告推播了。因為每個用戶在 Facebook 上的操作行為,包括發文的活躍程度、按過什麼屬性的粉絲頁讚……各種足跡都會幫助 Facebook 分析你的喜好,進而推薦你好友、推薦廣告商品、以及各種潛在需求的預測和推薦,也就是推薦系統(Recommender System)在做的事情。反過來說,對於用戶歷史行為的分析,也能對商業公司產生價值,例如協助銀行判斷用戶的信用等級,讓銀行決定要不要借錢給你、你之後會不會還款?
林守德表示,目前的推薦系統仍然以分門別類獨自運作為主,例如推薦書籍系統使用的就是書籍購買與閱讀的資料、推薦電影系統則使用電影搜尋下載的資料;但是目前正在開發的新方法,應能利用更全方位的方案做出更好推薦,例如書籍的資料可以幫助建構電影的推薦,反之亦然。然而目前的瓶頸首先在於資料整合不易,二來是多元品項之間的關聯性電腦仍掌握得不夠好,無法找出背後隱含的需求。「目前我們在開發的技術,就是要找到這些隱含的連結。例如生小孩背後的意義到底是什麼,會跟什麼樣的行為連結?應該對應到哪些商品?這些連結不是人工定義,而是要讓電腦自動從資料中去找出來,進而做出更好的推薦。」
呼應到最前面所說的,林守德教授認為大數據當今最重要的問題是如何從繁雜的資料中找出有用的部份、確認問題真正需要的資料。而目前電腦的角色仍然是輔助人做決策,但未來的資訊科學界將會推出日益精準的決策工具,讓人類下放權力給電腦。「這波數據革命就如同工業革命,人類不用擔心是否會被機器取代,因為科技永遠會日新月異。當新機器投入人類舊有的工作,人類就會向前尋找更高階的研究與工作項目,持續往更高的決策權發展,站在更高的位置處理科技之間的衝突與更迭。」林守德說,人類不必為了人工智慧過度恐慌,而是站在人工智慧的浪頭上,持續往更進階的科技前進。
(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)
責任編輯:鄭國威
大數據專題報導系列:
- 資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震
- 不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉
- 從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩
- 提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠