0

0
0

文字

分享

0
0
0

運用海量資料讓機器「自學」,電腦將成為更好的決策代理人-專訪台大資工教授林守德

陳妤寧
・2016/05/24 ・2921字 ・閱讀時間約 6 分鐘

採訪編輯 / 陳妤寧

如今數據的存儲量越來越大,專長為機器發明和人工智慧的台大資工系林守德教授認為,關鍵在於如何從海量資料之中找出對於解答問題真正有用的部份。「大家常覺得大數據好像很神奇,但卻對著數據不知道要問什麼問題。但從應用的角度來說,定義問題才是最關鍵的第一步,才能進一步判斷要使用哪些數據來解答?或是需要多大多小的數據來處理?」舉例來說,如果想預測某個路段下一個小時的車流量,會需要採用什麼數據?需要其他路段的流量資料做搭配嗎?「數據都在那裡,但要做取捨。」林守德說。如果無法先決定什麼問題適合用大數據來解決、一個問題適合由哪些數據來回答,有運算再快的電腦或是再高效的演算法都派不上用場。

不做定義,丟資料讓機器自己學習掌握規律

機器學習(Machine Learning)是大數據分析的一種方法,透過給予電腦大量的「訓練資料(Training Data)」,讓機器從中找出規律、學習如何將資料分群或分類。舉例來說,分類(Classification)的工作可以讓電腦學習判斷如何將大量的資料(input)歸到不同的類別(Output),首先就要給電腦一批資料並告訴電腦不同資料所屬的類別為何,以照片為例,例如告訴電腦這一百張照片是大自然風景、另外五十張照片則是人像,電腦就會從中學習到某種分類的規則,當一張新的照片再被丟進來電腦分析時,電腦便能依據經驗判斷這張照片是風景照還是人像照。

在這過程中,人類並不需要去向電腦解釋、或去定義「何謂風景照」、「如果符合某幾項條件即為人像照」,而是透過不斷的丟相片讓電腦做「模擬考」並給予評分和訂正,電腦久而久之就能掌握分類的規則。「讓數據自己說話」才是機器學習在大數據中的精神。同樣地,以攔截垃圾電郵為例,若需要電腦自動判斷一支影片是不是垃圾電郵,也不用告訴電腦「出現什麼樣的訊息」則為垃圾郵件,而是告訴電腦「這群郵件是垃圾郵件」「另外這群不是」,電腦就會學習掌握這兩批資料的不同之處進而藉此自動產出預測模型。

分群(Clustering)也是利用類似訓練資料的方法,讓機器學習將相似的資料歸為一群,有時候人類沒有足夠多的時間資源把每筆資料分類給電腦訓練,電腦可以自動分群,然後讓人類對每群資料下標籤來定義。例如一百張照片,要求電腦分成兩群、三群、或四群都可以,然後就可以請人類對每群的特性做標記。

多元的資料型態,電腦如何處理?

資料的來源和型態可以很多元,可以是戶外感測器搜集到的資料(如溫濕度,震波),這些資料的特色是因為感測網都鋪在外面,感測到的資料容易有較多的雜訊或遺漏;而網路上的文本資料,因為是人用鍵盤直接打出來的內容,因此資料的信賴度較高,但必須處理同意字等語言上的問題。「如果要調查一部電影在網路上獲得的評價是正面還是負面較多,電腦進行語意分析時要怎麼避免將『反諷』的文字誤判為正面評價呢?」林守德回答道,這個問題同樣可以透過機器學習來改善,訓練電腦從反諷和非反諷的兩批文字中掌握差異和規律。

文字資料雖然並非數字,不過林守德提醒文字資料不意味只能進行質化分析,也可以計算「哪個詞出現最多次」來進行量化分析。不過這一切的前提,必須是資料要先經過「數位化」的過程,即便是手寫的資料,也必須先經過手寫辨識,才能成為電腦可以處理的資料。

跳過分析報表,直接提供最佳決策才是未來大勢

林守德認為,和過去運用統計軟體、計算相對較少量的資料、產生分析報表,資訊人未來重要的任務應該是直接設計有「決策」能力的軟體,直接提供電腦演算後判定最為推薦的決策結果是什麼。例如只需要告訴電腦我有十萬元的預算到日本進行一週的旅遊,就能夠直接得到包含航班、旅館的整套行程規劃,而不必仰賴人力去分別搜尋最優惠的航班和旅館,再土法煉鋼地配對找出時間上可搭配的最佳組合。

「巨量資料技術不只是停留在提供統計分析的結果供人類做決策,未來要直接跳過分析,直接推薦你最佳選擇。電腦推薦的最佳選擇要逐漸比你自己做出的決定更快、更準、更好。」資工人在大數據應用上是如何將預測模型(如演算法)以程式呈現,直接做成一個可被使用的工具。例如目前的高速交易(high speed trading),即時競價(real time bidding)都是電腦取代人類決策的例子。

以 Google Map 而言,由於用戶量大,Google 能夠搜集到的資料回報量也就隨之水漲船高,進而運用回報資料更加優化其地圖服務、提供更精準的資料和分析結果,這點是其他新進場的地圖公司較難和 Google 比拼的原因。目前線上地圖目前提供的「路徑規劃」功能,從僅僅計算兩點距離告知「最短路徑」,到未來將能夠加入交通尖峰時間狀況,意外事故,甚至天氣、群眾活動等事件的資料提供「最佳路徑」的選擇,林守德認為多樣化的資料,就能協助讓運算模型發展得更為精緻,而這個優化的過程正是決策工具如何不斷優化的關鍵。

社群網路和個人化推薦

大數據在社群網路上最顯著的應用莫過於 Facebook 上的個人化推薦和廣告推播了。因為每個用戶在 Facebook 上的操作行為,包括發文的活躍程度、按過什麼屬性的粉絲頁讚……各種足跡都會幫助 Facebook 分析你的喜好,進而推薦你好友、推薦廣告商品、以及各種潛在需求的預測和推薦,也就是推薦系統(Recommender System)在做的事情。反過來說,對於用戶歷史行為的分析,也能對商業公司產生價值,例如協助銀行判斷用戶的信用等級,讓銀行決定要不要借錢給你、你之後會不會還款?

林守德表示,目前的推薦系統仍然以分門別類獨自運作為主,例如推薦書籍系統使用的就是書籍購買與閱讀的資料、推薦電影系統則使用電影搜尋下載的資料;但是目前正在開發的新方法,應能利用更全方位的方案做出更好推薦,例如書籍的資料可以幫助建構電影的推薦,反之亦然。然而目前的瓶頸首先在於資料整合不易,二來是多元品項之間的關聯性電腦仍掌握得不夠好,無法找出背後隱含的需求。「目前我們在開發的技術,就是要找到這些隱含的連結。例如生小孩背後的意義到底是什麼,會跟什麼樣的行為連結?應該對應到哪些商品?這些連結不是人工定義,而是要讓電腦自動從資料中去找出來,進而做出更好的推薦。」

呼應到最前面所說的,林守德教授認為大數據當今最重要的問題是如何從繁雜的資料中找出有用的部份、確認問題真正需要的資料。而目前電腦的角色仍然是輔助人做決策,但未來的資訊科學界將會推出日益精準的決策工具,讓人類下放權力給電腦。「這波數據革命就如同工業革命,人類不用擔心是否會被機器取代,因為科技永遠會日新月異。當新機器投入人類舊有的工作,人類就會向前尋找更高階的研究與工作項目,持續往更高的決策權發展,站在更高的位置處理科技之間的衝突與更迭。」林守德說,人類不必為了人工智慧過度恐慌,而是站在人工智慧的浪頭上,持續往更進階的科技前進。

(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)

責任編輯:鄭國威

大數據專題報導系列:

  1. 資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震
  2. 不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉
  3. 從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩
  4. 提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠

文章難易度
陳妤寧
38 篇文章 ・ 0 位粉絲
熱愛將知識拆解為簡單易懂的文字,喜歡把一件事的正反觀點都挖出來思考,希望用社會科學的視角創造更宏觀的視野。

0

1
0

文字

分享

0
1
0

災難片成真!?小行星「貝努」行蹤飄忽,撞地球的機率有多大?

EASY天文地科小站_96
・2021/09/19 ・2765字 ・閱讀時間約 5 分鐘
  • 文/陳子翔(現就讀師大地球科學系, EASY 天文地科團隊創辦者)

知名物理學家史蒂芬.霍金(Stephen Hawking)認為,小行星撞擊是宇宙中高等智慧生命最大的威脅之一。而回首地球的過去,六千五百萬年前的白堊紀末期,造成恐龍消失的生物大滅絕,也肇因於一顆直徑約十公里的小行星撞擊。那麼,我們應該擔心小行星帶來如同災難片場景的巨大浩劫嗎,人類又能為這件事做什麼準備呢?

我們該擔心哪些小行星,小行星撞擊能被預測嗎?

太陽系中的小行星不可勝數,但並非所有小行星都對於地球有潛在的危害。那麼,哪些小行星是應該注意的呢?

我們可以簡單從兩個條件,篩選出對地球有潛在威脅的小行星:第一是小行星的軌道,第二則是小行星的大小。如果一個天體的運行軌道與地球的運行軌道沒有交會,那也就不需要擔心它會部會撞到地球了。而直徑越大的小行星,撞擊地球產生的災害就會越大,例如一顆直徑 10 公尺的小行星墜落能造成小範圍的建築物受損,而直徑 50 公尺的小行星撞擊,其威力則足以摧毀整座大型城市。

https://upload.wikimedia.org/wikipedia/commons/thumb/5/59/Chelyabinsk_meteor_event_consequences_in_Drama_Theatre.jpg/1024px-Chelyabinsk_meteor_event_consequences_in_Drama_Theatre.jpg
2013 年俄羅斯車里亞賓斯克小行星墜落事件,隕石在空中爆炸的震波震碎大片玻璃。圖/Nikita Plekhanov

過去天文學家透過遍布世界的天文台,不斷在夜空中尋找近地小天體,並持續監測它們的動向。而透過觀測資料推算其軌道,就可以算出這些危險的小鄰居未來與地球發生「車禍」的機率有多大,而這篇文章的主角「貝努」,就是一顆被認為有較大機會撞擊地球,因此被重點關注的對象。

貝努撞地球會是未來的災難嗎?

貝努在 1999 年被發現,是一顆直徑約 500 公尺的小行星,它以橢圓軌道繞行太陽,公轉週期大約 437 天。由於貝努的軌道與地球相當接近,它每隔幾年就會接近地球一次,而本世紀貝努最接近我們的時刻將會發生在西元 2060 年,不過別擔心,該年貝努與地球最接近時,距離預計也還有七十萬公里,大約是地球至月球距離的兩倍,撞擊風險微乎其微。

綠色為地球軌道,藍色為貝努軌道。圖/University of Arizona

然而天文學家真正關注,撞擊風險較大的接近事件則會發生在下一個世紀。根據目前的軌道計算,貝努在西元 2135 年和 2182 年的兩次接近,會有較大的撞擊風險。說到這裡可能許多讀者會覺得,既然我們都活不到那個時候,何必去操心那些根本遇不到的事情呢?

那麼,讓我們想像一個情境:

如果今天天文學家突然發現了一顆與貝努一樣大的小行星,並算出它將在一年後撞上地球,那身為這個星球上「最有智慧的物種」,我們能怎麼應對呢?

很遺憾的:我們很可能對於撞擊束手無策。當前人類並沒有任何成熟的技術,能夠在這麼短的時間內改變小行星的軌道。這時候人們可能就會希望前人早點望向星空,調查小行星,好讓人們能夠有多一百年的時間準備應對的方法了!

小行星軌道計算不就是簡單的牛頓力學,為什麼算不準?

那麼貝努在未來 100〜200 年到底會不會撞擊地球呢?其實天文學家也說不太準,只能給出大概的機率而已,而且時間越久,預測的不確定性就越大。

你也許會想,天體的運行軌道不就只是簡單的牛頓力學,三百年前的人就已經掌握得很好了,在電腦科技發達的現代怎們會算不準呢?確實,如果要算地球與火星在 100 年後的相對位置,那電腦還能輕鬆算出相當精確的答案,但如果是計算小行星 100 年後的位置,事情就變得棘手多了……

由於小行星的質量很小,就算是相對微小的引力干擾還是足以改變其運行方向,而混沌理論(Chaos theory)告訴我們,任何微小的初始條件差異,都能造成結果極大的不同。因此要對小行星軌道做長期預測,就不能只考慮太陽的引力,而是必須把行星等其他天體的引力也納入計算,才能獲得比較準確的結果。尤其是當這些小行星與地球擦肩而過時,即使只有幾百公尺的位置偏差,受到的引力也會有相當的不同,使得小行星的未來軌跡出現巨大的差異。

而更令天文學家們頭痛的是,有些問題甚至不是萬有引力能夠解決的,其中一個因子就是「亞爾科夫斯基效應」(Yarkovsky Effect)。這個效應是這樣的:當陽光照在自轉中的小行星上,陽光會加熱小行星的受光面,而被加熱的這一面轉向背光面時,釋放的熱能會像是小小的火箭引擎一樣推動小行星。這個作用的推力非常小,但長期下來還是足以對質量很小的天體造成軌跡變化,也讓軌道預測多了很大的不確定性。

亞爾科夫斯基效應的動畫。影片/NASA

OSIRIS-REx 任務揭露貝努的神秘面紗,也讓軌道推估更精確

為了更深入了解貝努,NASA 在 2016 年發射 OSIRIS-REx 探測器探查這顆小行星。OSIRIS-REx 主要的任務包括從貝努表面採取樣本並送回地球分析、對整顆小行星做完整的調查,以及評估各種影響貝努運行軌道的因子,改善貝努軌道的預測模型,評估將來的撞擊風險。

在軌道分析方面,OSIRIS-REx 一方面能在環繞貝努的過程中緊盯貝努的「一舉一動」,讓天文學家透過精確的觀測結果反推貝努的軌道特性。另一方面,要評估亞爾科夫斯基效應對小行星軌道的影響,也需要考量小行星的地形地貌、反照率等等因素,因此 OSIRIS-REx 的各項觀測資料,也有助於建立更精確的軌道預測模型。

OSIRIS-REx 探測器。圖/University of Arizona/NASA Goddard Space Flight Center

目前 OSIRIS-REx 的任務還沒有結束,但是在取得更準確的軌道預測模型與撞擊風險評估上,已經有了初步的成果。根據這次任務提供的觀測資料,天文學家將預測貝努未來軌道的時間極限,從原本的西元 2200 年延長至 2300 年。而西元2300年之前,貝努撞上地球的機率大約是 0.057% (1/1750),最危險的一次接近則會發生在西元 2182 年

「知己知彼,百戰不殆」。面對像貝努這樣的危險鄰居,唯有盡可能認識它的一切,才越能夠掌握其未來的動向,進而在將來思考要如何面對小行星的撞擊的風險。另外,目前 OSIRIS-REx 也正在返航地球的旅途上,期待 2023 年 OSIRIS-REx 能順利的帶著貝努的樣本回到地球,帶給我們更多有關小行星的重要資訊!

參考資料

EASY天文地科小站_96
4 篇文章 ・ 7 位粉絲
EASY 是由一群熱愛地科的學生於2017年創立的團隊,目前主要由研究生與大學生組成。我們透過創作圖文專欄、文章以及舉辦實體活動,分享天文、太空與地球科學的大小事
網站更新隱私權聲明
本網站使用 cookie 及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策