0

0
0

文字

分享

0
0
0

運用海量資料讓機器「自學」,電腦將成為更好的決策代理人-專訪台大資工教授林守德

陳妤寧
・2016/05/24 ・2921字 ・閱讀時間約 6 分鐘 ・SR值 550 ・八年級

-----廣告,請繼續往下閱讀-----

採訪編輯 / 陳妤寧

如今數據的存儲量越來越大,專長為機器發明和人工智慧的台大資工系林守德教授認為,關鍵在於如何從海量資料之中找出對於解答問題真正有用的部份。「大家常覺得大數據好像很神奇,但卻對著數據不知道要問什麼問題。但從應用的角度來說,定義問題才是最關鍵的第一步,才能進一步判斷要使用哪些數據來解答?或是需要多大多小的數據來處理?」舉例來說,如果想預測某個路段下一個小時的車流量,會需要採用什麼數據?需要其他路段的流量資料做搭配嗎?「數據都在那裡,但要做取捨。」林守德說。如果無法先決定什麼問題適合用大數據來解決、一個問題適合由哪些數據來回答,有運算再快的電腦或是再高效的演算法都派不上用場。

不做定義,丟資料讓機器自己學習掌握規律

機器學習(Machine Learning)是大數據分析的一種方法,透過給予電腦大量的「訓練資料(Training Data)」,讓機器從中找出規律、學習如何將資料分群或分類。舉例來說,分類(Classification)的工作可以讓電腦學習判斷如何將大量的資料(input)歸到不同的類別(Output),首先就要給電腦一批資料並告訴電腦不同資料所屬的類別為何,以照片為例,例如告訴電腦這一百張照片是大自然風景、另外五十張照片則是人像,電腦就會從中學習到某種分類的規則,當一張新的照片再被丟進來電腦分析時,電腦便能依據經驗判斷這張照片是風景照還是人像照。

在這過程中,人類並不需要去向電腦解釋、或去定義「何謂風景照」、「如果符合某幾項條件即為人像照」,而是透過不斷的丟相片讓電腦做「模擬考」並給予評分和訂正,電腦久而久之就能掌握分類的規則。「讓數據自己說話」才是機器學習在大數據中的精神。同樣地,以攔截垃圾電郵為例,若需要電腦自動判斷一支影片是不是垃圾電郵,也不用告訴電腦「出現什麼樣的訊息」則為垃圾郵件,而是告訴電腦「這群郵件是垃圾郵件」「另外這群不是」,電腦就會學習掌握這兩批資料的不同之處進而藉此自動產出預測模型。

-----廣告,請繼續往下閱讀-----

分群(Clustering)也是利用類似訓練資料的方法,讓機器學習將相似的資料歸為一群,有時候人類沒有足夠多的時間資源把每筆資料分類給電腦訓練,電腦可以自動分群,然後讓人類對每群資料下標籤來定義。例如一百張照片,要求電腦分成兩群、三群、或四群都可以,然後就可以請人類對每群的特性做標記。

多元的資料型態,電腦如何處理?

資料的來源和型態可以很多元,可以是戶外感測器搜集到的資料(如溫濕度,震波),這些資料的特色是因為感測網都鋪在外面,感測到的資料容易有較多的雜訊或遺漏;而網路上的文本資料,因為是人用鍵盤直接打出來的內容,因此資料的信賴度較高,但必須處理同意字等語言上的問題。「如果要調查一部電影在網路上獲得的評價是正面還是負面較多,電腦進行語意分析時要怎麼避免將『反諷』的文字誤判為正面評價呢?」林守德回答道,這個問題同樣可以透過機器學習來改善,訓練電腦從反諷和非反諷的兩批文字中掌握差異和規律。

文字資料雖然並非數字,不過林守德提醒文字資料不意味只能進行質化分析,也可以計算「哪個詞出現最多次」來進行量化分析。不過這一切的前提,必須是資料要先經過「數位化」的過程,即便是手寫的資料,也必須先經過手寫辨識,才能成為電腦可以處理的資料。

跳過分析報表,直接提供最佳決策才是未來大勢

林守德認為,和過去運用統計軟體、計算相對較少量的資料、產生分析報表,資訊人未來重要的任務應該是直接設計有「決策」能力的軟體,直接提供電腦演算後判定最為推薦的決策結果是什麼。例如只需要告訴電腦我有十萬元的預算到日本進行一週的旅遊,就能夠直接得到包含航班、旅館的整套行程規劃,而不必仰賴人力去分別搜尋最優惠的航班和旅館,再土法煉鋼地配對找出時間上可搭配的最佳組合。

-----廣告,請繼續往下閱讀-----

「巨量資料技術不只是停留在提供統計分析的結果供人類做決策,未來要直接跳過分析,直接推薦你最佳選擇。電腦推薦的最佳選擇要逐漸比你自己做出的決定更快、更準、更好。」資工人在大數據應用上是如何將預測模型(如演算法)以程式呈現,直接做成一個可被使用的工具。例如目前的高速交易(high speed trading),即時競價(real time bidding)都是電腦取代人類決策的例子。

以 Google Map 而言,由於用戶量大,Google 能夠搜集到的資料回報量也就隨之水漲船高,進而運用回報資料更加優化其地圖服務、提供更精準的資料和分析結果,這點是其他新進場的地圖公司較難和 Google 比拼的原因。目前線上地圖目前提供的「路徑規劃」功能,從僅僅計算兩點距離告知「最短路徑」,到未來將能夠加入交通尖峰時間狀況,意外事故,甚至天氣、群眾活動等事件的資料提供「最佳路徑」的選擇,林守德認為多樣化的資料,就能協助讓運算模型發展得更為精緻,而這個優化的過程正是決策工具如何不斷優化的關鍵。

社群網路和個人化推薦

大數據在社群網路上最顯著的應用莫過於 Facebook 上的個人化推薦和廣告推播了。因為每個用戶在 Facebook 上的操作行為,包括發文的活躍程度、按過什麼屬性的粉絲頁讚……各種足跡都會幫助 Facebook 分析你的喜好,進而推薦你好友、推薦廣告商品、以及各種潛在需求的預測和推薦,也就是推薦系統(Recommender System)在做的事情。反過來說,對於用戶歷史行為的分析,也能對商業公司產生價值,例如協助銀行判斷用戶的信用等級,讓銀行決定要不要借錢給你、你之後會不會還款?

林守德表示,目前的推薦系統仍然以分門別類獨自運作為主,例如推薦書籍系統使用的就是書籍購買與閱讀的資料、推薦電影系統則使用電影搜尋下載的資料;但是目前正在開發的新方法,應能利用更全方位的方案做出更好推薦,例如書籍的資料可以幫助建構電影的推薦,反之亦然。然而目前的瓶頸首先在於資料整合不易,二來是多元品項之間的關聯性電腦仍掌握得不夠好,無法找出背後隱含的需求。「目前我們在開發的技術,就是要找到這些隱含的連結。例如生小孩背後的意義到底是什麼,會跟什麼樣的行為連結?應該對應到哪些商品?這些連結不是人工定義,而是要讓電腦自動從資料中去找出來,進而做出更好的推薦。」

-----廣告,請繼續往下閱讀-----

呼應到最前面所說的,林守德教授認為大數據當今最重要的問題是如何從繁雜的資料中找出有用的部份、確認問題真正需要的資料。而目前電腦的角色仍然是輔助人做決策,但未來的資訊科學界將會推出日益精準的決策工具,讓人類下放權力給電腦。「這波數據革命就如同工業革命,人類不用擔心是否會被機器取代,因為科技永遠會日新月異。當新機器投入人類舊有的工作,人類就會向前尋找更高階的研究與工作項目,持續往更高的決策權發展,站在更高的位置處理科技之間的衝突與更迭。」林守德說,人類不必為了人工智慧過度恐慌,而是站在人工智慧的浪頭上,持續往更進階的科技前進。

(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)

責任編輯:鄭國威

大數據專題報導系列:

-----廣告,請繼續往下閱讀-----
  1. 資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震
  2. 不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉
  3. 從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩
  4. 提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠
文章難易度
陳妤寧
38 篇文章 ・ 0 位粉絲
熱愛將知識拆解為簡單易懂的文字,喜歡把一件事的正反觀點都挖出來思考,希望用社會科學的視角創造更宏觀的視野。

1

2
0

文字

分享

1
2
0
AI 也會出差錯?使用人工智慧可能帶來的倫理與風險——《科學月刊》
科學月刊_96
・2023/02/19 ・3976字 ・閱讀時間約 8 分鐘

-----廣告,請繼續往下閱讀-----

  • 甘偵蓉|清華大學人文社會 AI 應用與發展研究中心博士後研究學者。

Take Home Message

  • Facebook 或 Instagram 的訊息推薦、YouTube 或 Netflix 推薦觀賞影片、掃瞄臉部以解鎖手機,AI 應用早已在我們日常生活中隨處可見。
  • AI 應用中四種常見的倫理和風險:演算法偏誤、相關技術或產品偏離原先使用目的、擁有善惡兩種用途,以及演算法設計不良或現有技術限制。
  • 近年來各國家皆制訂有關 AI 發展的規範,臺灣則在 2019 年制訂「AI 科研發展指引」,期望能改善 AI 發展帶來的問題與風險。

當談到人工智慧(artificial intelligence, AI)、也就是 AI 時,讀者會想到什麼?是多年前由史匹柏(Steven Spielberg)導演的那部《A.I. 人工智慧》(A.I. Artificial Intelligence)中那個一直盼不到人類母愛而令人心碎的機器人小男孩?還是由史密斯(Will Smith)主演的《機械公敵》(I, Robot)裡那些沒遵守機器人三大法則的機器人或中央系統?

《A.I. 人工智慧》(A.I. Artificial Intelligence)電影海報,上映於 2001 年。圖/IMDb

或許未來有一天,人類真的可以設計出如電影中那些像人一樣的 AI 系統或機器人。但目前為止,你常聽到的 AI 其實既很厲害又很不厲害,為什麼呢?厲害的是它下圍棋可贏過世界冠軍,還能夠比放射科技師更快、更準確地辨識 X 光片中疑似病變的細胞;但它不厲害的是,很會下圍棋的 AI 就只能下圍棋,別說不會打牌,連撲克牌是什麼都不知道!而且每次學新事物幾乎都是打掉重練,得不斷做好多考古題才有可能學得會,不像人類通常教幾次就會舉一反三。

不過,即使目前世界上的 AI 都是這種只具備特定功能的「弱 AI」(artificial narrow intelligence, ANI),但已經為這個世界帶來相當大的進步與便利。所以,以下要談的就是 ANI 的倫理與風險。

談到這種只具特定功能的 ANI,讀者知道目前生活周遭有哪些事物有利用 AI 技術嗎?其實 Google 上的搜尋資訊、Facebook 或 Instagram 的訊息推薦、對智慧型手機喊「Siri 現在外面有下雨嗎?」等功能,或是以掃瞄臉部解鎖手機與進入大樓、YouTube 或 Netflix 推薦觀賞影片,甚至是投履歷求職、銀行審核貸款申請等都常用到 AI 技術,它早在我們日常生活中隨處可見。

-----廣告,請繼續往下閱讀-----
AI 技術在日常生活中隨處可見,如 YouTube 推薦觀看影片。圖/Pexels

但也正是如此,讓人們這幾年在使用 AI 時,逐漸發現它可能造成的問題或傷害,以下簡單介紹常見的四種AI應用可能造成的倫理問題或風險。

演算法偏誤

第一種是演算法偏誤(algorithmic bias)。什麼是演算法偏誤?簡單來說就是 AI 在某些群體的判斷準確率或預測結果上總是很差,導致結果可能對於此群體造成系統性的不利。但為何會造成演算法偏誤?常見原因有三項。

第一項原因是,建立 AI 模型的研究資料集有偏誤,在性別、種族、社經地位等特徵上,沒有真實世界的人口分布代表性。例如數位裝置採用 AI 臉部辨識技術解鎖,原本是希望保護個人使用數位裝置的安全性,結果皮膚深的人卻常常遇到辨識失敗而無法解鎖。這通常是因為目前許多 AI 模型都是以機器學習技術設計,而機器學習的主要特性就是從過去人類留下的大量資料中學習;當初提供電腦學習臉部辨識的圖片時,如果多數都是白皮膚而非黑皮膚、多數都是男性的臉而非女性的臉,那麼電腦在學習辨識人臉的準確率上,整體而言辨識男性白人就會比辨識女性黑人要高出許多。

第二項產生演算法偏誤的原因是建立 AI 模型的研究資料集不只有偏誤,還反映現實社會中的性別、種族、社經地位等歧視;例如美國警政單位以過往犯罪資料訓練出獄後犯人再犯風險評估的 AI 模型,那些資料不意外地有色人種的犯罪紀錄遠多於白人犯罪紀錄。然而,那些紀錄也反映美國社會長久以來對於有色人種的歧視,其中包含警察對於有色人種的盤查比例遠高於白人、法院對於有色人種的定罪比例及判刑嚴重程度也遠高於白人、警力通常被派往多黑人與拉丁裔人種居住的窮困社區盤查等。所以根據過往犯罪資料所訓練出來的 AI 模型,不意外地也就會預測有色人種的再犯機率普遍來說比白人高。

-----廣告,請繼續往下閱讀-----

第三項產生演算法偏誤的原因則是 AI 學會了連系統開發者都沒有察覺到,潛藏在資料裡的偏誤。例如科技公司人資部門本來想借助 AI 更有效率地篩選出適合來面試的履歷,所以挑選在該公司任職一定年資且曾升遷二次的員工履歷來訓練 AI 模型。問題是,高科技公司向來男多女少,所提供給 AI 學習的資料自然就男女比例相當不均。AI 也就學會了凡是出現偏向女性名字、嗜好、畢業學校系所等文字的履歷,平均所給的評分都比出現偏向男性等相關文字的履歷還低。

潛藏在資料裡的偏誤造成 AI 預測結果彷彿帶有性別歧視。圖/Envato Elements

但目前科技公司陽盛陰衰,是受到以往鼓勵男性就讀理工、女性就讀人文科系,或男性在外工作女性在家帶小孩等性別刻板偏見所影響。所以 20~30 年來許多人做出各種努力以消除這種性別刻板偏見所帶來的不良影響,政府也努力制定各種政策來消除這種不當的性別偏見,像是求才廣告基本上不能限定性別、公司聘雇員工應該達到一定的性別比例等。因此,訓練 AI 的研究資料一旦隱藏類似前述性別比例不均的現象,訓練出來的 AI 預測結果就彷彿帶有性別歧視,讓人們過往致力消除性別不平等的各種努力都白費了!

其他 AI 應用帶來的倫理與風險

除了演算法偏誤的問題外,第二種可能帶來的倫理問題或風險是 AI 技術已經偏離原先使用目的,例如深偽技術(deepfake)原本用來解決圖片資料量不夠的問題,後來卻被利用在偽造名人性愛影片等。

第三種則是有些 AI 技術或產品本身就可能有善惡兩種用途(dual-use)。例如 AI 人臉辨識技術可用在保護數位裝置的使用者或大樓保全,但也可用來窺探或監控特定個人;無人機可以在農業上幫助農夫播種,但也可作為自動殺人武器;可用來搜尋如何產生毒性最少的藥物合成演算法,也能反過來成為搜尋如何產生毒性最強的藥物合成演算法。

-----廣告,請繼續往下閱讀-----

最後,第四種是演算法設計不良或現有技術限制所導致的問題。在演算法設計不良方面,例如下棋機器人手臂可能因為沒有設計施力回饋或移動受阻暫停等防呆裝置,而造成誤抓人類棋手的手指且弄斷的意外。在現有技術限制方面,道路駕駛的交通標誌在現實中可能時常有老舊或髒汙的情況,儘管對於人類駕駛來說可能不影響判讀,但對於自駕車來說很可能就因此會嚴重誤判,例如無法正確辨識禁止通行標誌而繼續行駛,或是將速限 35 公里誤判成 85 公里等。但前述情況也有可能是自駕車網路、控制權限或物件辨識模型受到惡意攻擊所致。

以上介紹了 AI 常見的四種倫理問題或風險:演算法偏誤、相關技術或產品偏離原先使用目的、擁有善惡兩種用途,以及演算法設計不良或現有技術限制。但人們該如何減少這些倫理問題與風險呢?

培養AI使用倫理與風險的敏銳度

近五、六年來國際組織如聯合國教育科學及文化組織(United Nations Educational, Scientific and Cultural Organization, UNESCO)、歐盟(European Union, EU)、電機電子工程師學會(Institute of Electrical and Electronics Engineers, IEEE)或是國家、國際非營利組織皆紛紛制訂有關 AI 發展的白皮書或倫理指引(ethical guidelines),甚至逐漸朝向法律治理的方向,如歐盟的人工智慧規則草案等。儘管這些文件所提出的倫理價值、原則或行為規範,看似各有不同,但經過這些年的討論與摸索,也逐漸匯聚出一些共識。

「人工智慧科研發展指引」提出三項倫理價值,包含以人為本、永續發展、多元包容。圖/Pexels

臺灣相較於前述國際文件來說,在制訂的時間上比較晚。2019 年由當時的科技部(現改為國科會)制訂「人工智慧科研發展指引」,裡面提出的三項倫理價值以及八項行為指引,基本上涵蓋了前述各種國際 AI 發展指引文件最常提及的內容。所謂三項倫理價值包含以人為本、永續發展、多元包容,行為指引則有共榮共利、安全性、問責與溝通、自主權與控制權、透明性與可追溯性、可解釋性、個人隱私與數據治理、公平性與非歧視性共八項。

-----廣告,請繼續往下閱讀-----

未來當讀者看到又出現哪些 AI 新技術或產品時,不妨試著評估看看是否有符合這三項價值及八項行為指引。若沒有,究竟是哪項不符合?不符合的原因是上述所介紹常見的四種倫理問題或風險的哪一種?若都不是,還有哪些倫理問題或風險過去被忽略了但值得重視?

AI 技術發展日新月進,在日常生活中的應用也愈來愈廣。但考量法律條文有強制性,在制訂時必須相當謹慎,免得動輒得咎,也很可能在不清楚狀況下反而制訂了不當阻礙創新發展的條文;再加上法律制定也必須有一定的穩定性,不能朝令夕改,否則會讓遵守法規者無所適從。因此可以想見,法令規範趕不上新興科技所帶來的問題與風險本來就是常態,而非遇到 AI 科技才有這種情況。

人們若能培養自身對於 AI 倫理問題或風險的敏銳度,便可發揮公民監督或協助政府監督的力量,評估 AI 開發或使用者有無善盡避免傷害特定個人或群體之嫌,逐漸改善 AI 開發者與大眾媒體常過度誇大 AI 功能,但對於可能帶來的倫理問題或風險卻常閃爍其詞或避而不談的不好現象。

本文感謝工業技術研究院產業科技國際策略發展所支持。

  • 〈本文選自《科學月刊》2023 年 2 月號〉
  • 科學月刊/在一個資訊不值錢的時代中,試圖緊握那知識餘溫外,也不忘科學事實和自由價值至上的科普雜誌。
所有討論 1
科學月刊_96
249 篇文章 ・ 3481 位粉絲
非營利性質的《科學月刊》創刊於1970年,自創刊以來始終致力於科學普及工作;我們相信,提供一份正確而完整的科學知識,就是回饋給讀者最好的品質保證。

2

3
0

文字

分享

2
3
0
數據塑造生活與社會,讓人既放心但又不安?——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/28 ・2760字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

數位世界已經改變了我們日常生活的體驗,一個人從早到晚都會接受到大量數據,受益於大量數據,也貢獻大量數據。這些數據龐大的程度,和消化資訊的方式已經太過繁多,人類心智根本無法處理。

與數位科技建立夥伴關係

所以人會本能地或潛意識地倚賴軟體來處理、組織、篩選出必要或有用的資訊,也就是根據用戶過去的偏好或目前的流行,來挑選要瀏覽的新項目、要看的電影、要播放的音樂。自動策劃的體驗很輕鬆容易,又能讓人滿足,人們只會在沒有自動化服務,例如閱讀別人臉書塗鴉牆上的貼文,或是用別人的網飛帳號看電影時,才會注意到這服務的存在。

有人工智慧協助的網路平臺加速整合,並加深了個人與數位科技間的連結。人工智慧經過設計和訓練,能直覺地解決人類的問題、掌握人類的目標,原本只有人類心智才能管理的各種選擇,現在能由網路平臺來引導、詮釋和記錄(儘管效率比較差)。

日常生活中很少察覺到對自動策劃的依賴。圖/Pexels

網路平臺收集資訊和體驗來完成這些任務,任何一個人的大腦在壽命期限內都不可能容納如此大量的資訊和體驗,所以網路平臺能產出看起來非常恰當的答案和建議。例如,採購員不管再怎麼投入工作,在挑選冬季長靴的時候,也不可能從全國成千上萬的類似商品、近期天氣預測、季節因素、回顧過去的搜尋記錄、調查物流模式之後,才決定最佳的採購項目,但人工智慧可以完整評估上述所有因素。

-----廣告,請繼續往下閱讀-----

因此,由人工智慧驅動的網路平臺經常和我們每個人互動,但我們在歷史上從未和其他產品、服務或機器這樣互動過。當我們個人在和人工智慧互動的時候,人工智慧會適應個人用戶的偏好(網際網路瀏覽記錄、搜尋記錄、旅遊史、收入水準、社交連結),開始形成一種隱形的夥伴關係。

個人用戶逐漸依賴這樣的平臺來完成一串功能,但這些功能過去可能由郵政、百貨公司,或是接待禮賓、懺悔自白的人和朋友,或是企業、政府或其他人類一起來完成。

網路平臺和用戶之間是既親密又遠距的聯繫。圖/Envato Elements

個人、網路平臺和平臺用戶之間的關係,是一種親密關係與遠距聯繫的新穎組合。人工智慧網路平臺審查大量的用戶數據,其中大部分是個人數據(如位置、聯絡資訊、朋友圈、同事圈、金融與健康資訊);網路會把人工智慧當成嚮導,或讓人工智慧來安排個人化體驗。

人工智慧如此精準、正確,是因為人工智慧有能力可以根據數億段類似的關係,以及上兆次空間(用戶群的地理範圍)與時間(集合了過去的使用)的互動來回顧和反應。網路平臺用戶與人工智慧形成了緊密的互動,並互相學習。

-----廣告,請繼續往下閱讀-----

網路平臺的人工智慧使用邏輯,在很多方面對人類來說都難以理解。例如,運用人工智慧的網路平臺在評估圖片、貼文或搜尋時,人類可能無法明確地理解人工智慧會在特定情境下如何運作。谷歌的工程師知道他們的搜尋功能若有人工智慧,就會有清楚的搜尋結果;若沒有人工智慧,搜尋結果就不會那麼清楚,但工程師沒辦法解釋為什麼某些結果的排序比較高。

要評鑑人工智慧的優劣,看的是結果實用不實用,不是看過程。這代表我們的輕重緩急已經和早期不一樣了,以前每個機械的步驟或思考的過程都會由人類來體驗(想法、對話、管理流程),或讓人類可以暫停、檢查、重複。

人工智慧陪伴現代人的生活

例如,在許多工業化地區,旅行的過程已經不需要「找方向」了。以前這過程需要人力,要先打電話給我們要拜訪的對象,查看紙本地圖,然後常常在加油站或便利商店停下來,確認我們的方向對不對。現在,透過手機應用程式,旅行的過程可以更有效率。

透過導航,為旅途帶來不少便利。圖/Pexels

這些應用程式不但可以根據他們「所知」的交通記錄來評估可能的路線與每條路線所花費的時間,還可以考量到當天的交通事故、可能造成延誤的特殊狀況(駕駛過程中的延誤)和其他跡象(其他用戶的搜尋),來避免和別人走同一條路。

-----廣告,請繼續往下閱讀-----

從看地圖到線上導航,這轉變如此方便,很少人會停下來想想這種變化有多大的革命性意義,又會帶來什麼後果。個人用戶、社會與網路平臺和營運商建立了新關係,並信任網路平臺與演算法可以產生準確的結果,獲得了便利,成為數據集的一部分,而這數據集又在持續進化(至少會在大家使用應用程式的時候追蹤個人的位置)。

在某種意義上,使用這種服務的人並不是獨自駕駛,而是系統的一部分。在系統內,人類和機器智慧一起協作,引導一群人透過各自的路線聚集在一起。

持續陪伴型的人工智慧會愈來愈普及,醫療保健、物流、零售、金融、通訊、媒體、運輸和娛樂等產業持續發展,我們的日常生活體驗透過網路平臺一直在變化。

網路平台協助我們完成各種事項。圖/Pexels

當用戶找人工智慧網路平臺來協助他們完成任務的時候,因為網路平臺可以收集、提煉資訊,所以用戶得到了益處,上個世代完全沒有這種經驗。這種平臺追求新穎模式的規模、力量、功能,讓個人用戶獲得前所未有的便利和能力;同時,這些用戶進入一種前所未有的人機對話中。

-----廣告,請繼續往下閱讀-----

運用人工智慧的網路平臺有能力可以用我們無法清楚理解,甚至無法明確定義或表示的方式來形塑人類的活動,這裡有一個很重要的問題:這種人工智慧的目標功能是什麼?由誰設計?在哪些監管參數範圍裡?

類似問題的答案會繼續塑造未來的生活與未來的社會:誰在操作?誰在定義這些流程的限制?這些人對於社會規範和制度會有什麼影響?有人可以存取人工智慧的感知嗎?有的話,這人是誰?

如果沒有人類可以完全理解或查看數據,或檢視每個步驟,也就是說假設人類的角色只負責設計、監控和設定人工智慧的參數,那麼對人工智慧的限制應該要讓我們放心?還是讓我們不安?還是既放心又不安?

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
所有討論 2
聯經出版_96
27 篇文章 ・ 20 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。

0

1
0

文字

分享

0
1
0
AI 的 3 種學習形式:不同的目標功能,不同的訓練方式——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/27 ・2368字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

搭配不同的任務,人工智慧的應用方式也不一樣,所以開發人員用來創造人工智慧的科技也不一樣。這是部署機器學習時最基礎的挑戰:不同的目標和功能需要不同的訓練技巧。

機器學習最基礎的挑戰:不同目標和功能需配合不同訓練技巧。圖/Pexels

不過,結合不同的機器學習法,尤其是應用神經網路,就出現不同的可能性,例如發現癌症的人工智慧。

機器的 3 種學習形式

在我們撰寫本章的時候,機器學習的三種形式:受監督式學習、不受監督式學習和增強式學習,都值得注意。

受監督式學習催生了發現海利黴素的人工智慧。總結來說,麻省理工學院的研究人員想要找出有潛力的新抗生素,在資料庫裡放入二千種分子來訓練模型,輸入項目是分子結構,輸出項目是抑菌效果;研究人員把分子結構展示給人工智慧看,每一種結構都標示抗菌力,然後讓人工智慧去評估新化合物的抗菌效果。

-----廣告,請繼續往下閱讀-----

這種技巧稱為受監督式學習,因為人工智慧開發人員利用包含了輸入範例(即分子結構)的資料集,在這裡面,每一筆數據都單獨標示研究人員想要的輸出項目或結果(即抗菌力)。

開發人員已經把受監督式學習的技巧應用於許多處,例如創造人工智慧來辨識影像。為了這項任務,人工智慧先拿已經標示好的圖像來訓練,學著把圖像和標籤,例如把貓的照片和「貓」的標籤,聯想在一起,人工智慧把圖片和標籤的關係編碼之後,就可以正確地辨識新圖片。

貓貓!圖/Pexels

因此,當開發人員有一個資料集,其中每個輸入項目都有期望的輸出項目,受監督式學習就能有效地創造出模型,根據新的輸入項目來預測輸出項目。

不過,當開發人員只有大量資料,沒有建立關係的時候,他們可以透過不受監督式學習來找出可能有用的見解。因為網際網路與資料數位化,比過去更容易取得資料,現在企業、政府和研究人員都被淹沒在資料中。

-----廣告,請繼續往下閱讀-----

行銷人員擁有更多顧客資訊、生物學家擁有更多資料、銀行家有更多金融交易記錄。當行銷人員想要找出客戶群,或詐騙分析師想要在大量交易中找到不一致的資訊,不受監督式學習就可以讓人工智慧在不確定結果的資訊中找出異常模式。

這時,訓練資料只有輸入項目,然後工程師會要求學習演算法根據相似性來設定權重,將資料分類。舉例來說,像網飛(Netflix)這樣的影音串流服務,就是利用演算法來找出哪些觀眾群有類似的觀影習慣,才好向他們推薦更多節目;但要優化、微調這樣的演算法會很複雜:因為多數人有好幾種興趣,會同時出現在很多組別裡。

影音串流服務利用演算法,進而推薦使用者可能喜歡的節目。圖/Pexels

經過不受監督式學習法訓練的人工智慧,可以找出人類或許會錯過的模式,因為這些模式很微妙、數據規模又龐大。因為這樣的人工智慧在訓練時沒有明定什麼結果才「適當」,所以可以產生讓人驚豔的創新見解,這其實和人類的自我教育沒什麼不同——無論是人類自學或是人工智慧,都會產生稀奇古怪、荒謬無理的結果。

不管是受監督式學習法或不受監督式學習法,人工智慧都是運用資料來執行任務,以發現新趨勢、識別影像或做出預測。在資料分析之外,研究人員想要訓練人工智慧在多變的環境裡操作,第三種機器學習法就誕生了。

-----廣告,請繼續往下閱讀-----

增強式學習:需要理想的模擬情境與回饋機制

若用增強式學習,人工智慧就不是被動地識別資料間的關聯,而是在受控的環境裡具備「能動性」,觀察並記錄自己的行動會有什麼反應;通常這都是模擬的過程, 把複雜的真實世界給簡化了,在生產線上準確地模擬機器人比較容易,在擁擠的城市街道上模擬就困難得多了。

但即使是在模擬且簡化的環境裡,如西洋棋比賽,每一步都還是會引發一連串不同的機會與風險。因此,引導人工智慧在人造環境裡訓練自己,還不足以產生最佳表現,這訓練過程還需要回饋。

西洋棋比賽中的每一步會引發一連串機會與風險。圖/Pexels

提供反饋和獎勵,可以讓人工智慧知道這個方法成功了。沒有人類可以有效勝任這個角色:人工智慧因為在數位處理器上運作,所以可以在數小時或數日之內就訓練自己幾百次、幾千次或幾十億次,人類提供的回饋相比之下根本不切實際。

軟體工程師將這種回饋功能自動化,謹慎精確地說明這些功能要如何操作,以及這些功能的本質是要模擬現實。理想情況下,模擬器會提供擬真的環境,回饋功能則會讓人工智慧做出有效的決定。

-----廣告,請繼續往下閱讀-----

阿爾法元的模擬器就很簡單粗暴:對戰。阿爾法元為了評估自己的表現,運用獎勵功能,根據每一步創造的機會來評分。

增強式學習需要人類參與來創造人工智慧的訓練環境(儘管在訓練過程中不直接提供回饋):人類要定義模擬情境和回饋功能,人工智慧會在這基礎上自我訓練。為產生有意義的結果,謹慎明確地定義模擬情境和回饋功能至關重要。

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

聯經出版_96
27 篇文章 ・ 20 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。

0

0
0

文字

分享

0
0
0
運用海量資料讓機器「自學」,電腦將成為更好的決策代理人-專訪台大資工教授林守德
陳妤寧
・2016/05/24 ・2921字 ・閱讀時間約 6 分鐘 ・SR值 550 ・八年級

-----廣告,請繼續往下閱讀-----

採訪編輯 / 陳妤寧

如今數據的存儲量越來越大,專長為機器發明和人工智慧的台大資工系林守德教授認為,關鍵在於如何從海量資料之中找出對於解答問題真正有用的部份。「大家常覺得大數據好像很神奇,但卻對著數據不知道要問什麼問題。但從應用的角度來說,定義問題才是最關鍵的第一步,才能進一步判斷要使用哪些數據來解答?或是需要多大多小的數據來處理?」舉例來說,如果想預測某個路段下一個小時的車流量,會需要採用什麼數據?需要其他路段的流量資料做搭配嗎?「數據都在那裡,但要做取捨。」林守德說。如果無法先決定什麼問題適合用大數據來解決、一個問題適合由哪些數據來回答,有運算再快的電腦或是再高效的演算法都派不上用場。

不做定義,丟資料讓機器自己學習掌握規律

機器學習(Machine Learning)是大數據分析的一種方法,透過給予電腦大量的「訓練資料(Training Data)」,讓機器從中找出規律、學習如何將資料分群或分類。舉例來說,分類(Classification)的工作可以讓電腦學習判斷如何將大量的資料(input)歸到不同的類別(Output),首先就要給電腦一批資料並告訴電腦不同資料所屬的類別為何,以照片為例,例如告訴電腦這一百張照片是大自然風景、另外五十張照片則是人像,電腦就會從中學習到某種分類的規則,當一張新的照片再被丟進來電腦分析時,電腦便能依據經驗判斷這張照片是風景照還是人像照。

在這過程中,人類並不需要去向電腦解釋、或去定義「何謂風景照」、「如果符合某幾項條件即為人像照」,而是透過不斷的丟相片讓電腦做「模擬考」並給予評分和訂正,電腦久而久之就能掌握分類的規則。「讓數據自己說話」才是機器學習在大數據中的精神。同樣地,以攔截垃圾電郵為例,若需要電腦自動判斷一支影片是不是垃圾電郵,也不用告訴電腦「出現什麼樣的訊息」則為垃圾郵件,而是告訴電腦「這群郵件是垃圾郵件」「另外這群不是」,電腦就會學習掌握這兩批資料的不同之處進而藉此自動產出預測模型。

-----廣告,請繼續往下閱讀-----

分群(Clustering)也是利用類似訓練資料的方法,讓機器學習將相似的資料歸為一群,有時候人類沒有足夠多的時間資源把每筆資料分類給電腦訓練,電腦可以自動分群,然後讓人類對每群資料下標籤來定義。例如一百張照片,要求電腦分成兩群、三群、或四群都可以,然後就可以請人類對每群的特性做標記。

多元的資料型態,電腦如何處理?

資料的來源和型態可以很多元,可以是戶外感測器搜集到的資料(如溫濕度,震波),這些資料的特色是因為感測網都鋪在外面,感測到的資料容易有較多的雜訊或遺漏;而網路上的文本資料,因為是人用鍵盤直接打出來的內容,因此資料的信賴度較高,但必須處理同意字等語言上的問題。「如果要調查一部電影在網路上獲得的評價是正面還是負面較多,電腦進行語意分析時要怎麼避免將『反諷』的文字誤判為正面評價呢?」林守德回答道,這個問題同樣可以透過機器學習來改善,訓練電腦從反諷和非反諷的兩批文字中掌握差異和規律。

文字資料雖然並非數字,不過林守德提醒文字資料不意味只能進行質化分析,也可以計算「哪個詞出現最多次」來進行量化分析。不過這一切的前提,必須是資料要先經過「數位化」的過程,即便是手寫的資料,也必須先經過手寫辨識,才能成為電腦可以處理的資料。

跳過分析報表,直接提供最佳決策才是未來大勢

林守德認為,和過去運用統計軟體、計算相對較少量的資料、產生分析報表,資訊人未來重要的任務應該是直接設計有「決策」能力的軟體,直接提供電腦演算後判定最為推薦的決策結果是什麼。例如只需要告訴電腦我有十萬元的預算到日本進行一週的旅遊,就能夠直接得到包含航班、旅館的整套行程規劃,而不必仰賴人力去分別搜尋最優惠的航班和旅館,再土法煉鋼地配對找出時間上可搭配的最佳組合。

-----廣告,請繼續往下閱讀-----

「巨量資料技術不只是停留在提供統計分析的結果供人類做決策,未來要直接跳過分析,直接推薦你最佳選擇。電腦推薦的最佳選擇要逐漸比你自己做出的決定更快、更準、更好。」資工人在大數據應用上是如何將預測模型(如演算法)以程式呈現,直接做成一個可被使用的工具。例如目前的高速交易(high speed trading),即時競價(real time bidding)都是電腦取代人類決策的例子。

以 Google Map 而言,由於用戶量大,Google 能夠搜集到的資料回報量也就隨之水漲船高,進而運用回報資料更加優化其地圖服務、提供更精準的資料和分析結果,這點是其他新進場的地圖公司較難和 Google 比拼的原因。目前線上地圖目前提供的「路徑規劃」功能,從僅僅計算兩點距離告知「最短路徑」,到未來將能夠加入交通尖峰時間狀況,意外事故,甚至天氣、群眾活動等事件的資料提供「最佳路徑」的選擇,林守德認為多樣化的資料,就能協助讓運算模型發展得更為精緻,而這個優化的過程正是決策工具如何不斷優化的關鍵。

社群網路和個人化推薦

大數據在社群網路上最顯著的應用莫過於 Facebook 上的個人化推薦和廣告推播了。因為每個用戶在 Facebook 上的操作行為,包括發文的活躍程度、按過什麼屬性的粉絲頁讚……各種足跡都會幫助 Facebook 分析你的喜好,進而推薦你好友、推薦廣告商品、以及各種潛在需求的預測和推薦,也就是推薦系統(Recommender System)在做的事情。反過來說,對於用戶歷史行為的分析,也能對商業公司產生價值,例如協助銀行判斷用戶的信用等級,讓銀行決定要不要借錢給你、你之後會不會還款?

林守德表示,目前的推薦系統仍然以分門別類獨自運作為主,例如推薦書籍系統使用的就是書籍購買與閱讀的資料、推薦電影系統則使用電影搜尋下載的資料;但是目前正在開發的新方法,應能利用更全方位的方案做出更好推薦,例如書籍的資料可以幫助建構電影的推薦,反之亦然。然而目前的瓶頸首先在於資料整合不易,二來是多元品項之間的關聯性電腦仍掌握得不夠好,無法找出背後隱含的需求。「目前我們在開發的技術,就是要找到這些隱含的連結。例如生小孩背後的意義到底是什麼,會跟什麼樣的行為連結?應該對應到哪些商品?這些連結不是人工定義,而是要讓電腦自動從資料中去找出來,進而做出更好的推薦。」

-----廣告,請繼續往下閱讀-----

呼應到最前面所說的,林守德教授認為大數據當今最重要的問題是如何從繁雜的資料中找出有用的部份、確認問題真正需要的資料。而目前電腦的角色仍然是輔助人做決策,但未來的資訊科學界將會推出日益精準的決策工具,讓人類下放權力給電腦。「這波數據革命就如同工業革命,人類不用擔心是否會被機器取代,因為科技永遠會日新月異。當新機器投入人類舊有的工作,人類就會向前尋找更高階的研究與工作項目,持續往更高的決策權發展,站在更高的位置處理科技之間的衝突與更迭。」林守德說,人類不必為了人工智慧過度恐慌,而是站在人工智慧的浪頭上,持續往更進階的科技前進。

(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)

責任編輯:鄭國威

大數據專題報導系列:

-----廣告,請繼續往下閱讀-----
  1. 資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震
  2. 不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉
  3. 從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩
  4. 提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠
文章難易度
陳妤寧
38 篇文章 ・ 0 位粉絲
熱愛將知識拆解為簡單易懂的文字,喜歡把一件事的正反觀點都挖出來思考,希望用社會科學的視角創造更宏觀的視野。