0

0
0

文字

分享

0
0
0

是誰讓外送員飆車:「評價系統」會如何影響人們的行為?

人機共生你我它_96
・2019/11/26 ・5990字 ・閱讀時間約 12 分鐘 ・SR值 522 ・七年級

-----廣告,請繼續往下閱讀-----

根據社會地位的高低或個人價值的差異,來決定誰能過富裕舒適的生活、誰該活在貧窮與困苦之中,這種社會制度一點道理也沒有。

— 《收入不平等》Richard Wilkinson, Kate Pickett

圖/Vishal Shah@Pexels

前一陣子不幸發生食物平台外送員在外送期間發生車禍的意外,再次讓大眾注意到外送員勞動權益的問題。

今天我們不討論僱傭跟承攬之間的界線以及後續該怎麼處理,這篇文章想從評價系統如何影響我們行為的層面來跟大家討論:使用外送平台、Uber 服務、Airbnb 這類共享經濟平台的各方使用者如何被評價?而平台的評價機制會怎麼影響被評價者在不同環節中所做的決定,進而造成某些後果。

意識到這個評價系統對我們每個人的影響之後,就能夠知道如何改變或對抗評價系統,並降低意外發生的可能性。

根據台灣地區外送員在部落格的分享1,每週跑單 5~6 天,在沒有促銷活動的情況下,一個月大概 18K 左右,而外送平台的對外送員的獎勵機制會受訂單的每週接案率、訂單取消率、運送服務範圍、顧客評價、單位時間內達到的運送趟數、尖峰與離峰時間的訂單量而影響2、3、4、5

在這樣的評價系統底下,背後的目的是為了要求外送員做到——把餐點在最快的時間內、以最好的餐點狀態以及好的服務態度送到客戶手上。這時候身為要賺生活費的外送員,為了達到能讓自己獲利的趟數目標,很合理的行為就是:騎車要「有效率」。

-----廣告,請繼續往下閱讀-----

要怎麼有效率?就是多工,騎車的時候需要分配注意力在找最近的路線、密切注意餐點狀況、送達的時間、訂單狀況、如何安排自己的路線以及送單的優先順序,同時又要注意交通狀況。

在這樣緊湊又高壓的情況下,很難避免意外發生。

在這樣緊湊又高壓的情況下,很難避免意外發生。圖/Daria Sannikova@Pexels

看出評價系統對我們行為的影響了嗎?

當我們所賺的錢是取決於我們多有效率完成任務,我們就會想辦法讓自己盡可能地快。在外送的情境下可能的後果就是交通意外;在工廠、辦公室裡過度追求單位時間內產量的這個評量指標,帶來影響的就是加班過勞;在學術圈裡過度追求發表量的評量指標,所產生的影響就是不健康的師徒制,以教學之名行壓榨之實。

共享經濟服務帶來的好處是讓閒置資源得以有效率運用,但盈利企業為了確保服務品質所設計的評價機制對不同環節使用者潛藏著什麼風險?

接下來我想透過共享經濟平台 (Uber, Uber Eats, Airbnb, Foodpanda 等)的設計,帶大家來看評價系統對人類行為的影響,接著一起思考我們可以如何改變。

-----廣告,請繼續往下閱讀-----

當每次服務開始都被評價:演算法造成哪些影響?

一個負評就有可能丟了工作

客戶評分是所有共享經濟平台上會用來評價服務提供者常用的指標,在 Airbnb 上,房客可以為房東評分、Uber 乘客可以為司機評分、在食物外送平台上,餐廳跟點餐的客戶可以為外送員評分。

評價別人很容易,但是我們在評價別人之前,有沒有想過我們給的分數對眼前這個人會有多大的影響?

在美國的 Uber 與 Lyft(另一家載客服務)司機就曾經因為評價系統而吃虧,太多乘客們對於分數的認定跟平台系統評斷司機優劣的方式不完全相同,乘客給予 4 分很有可能就會讓他們失去後續接單的機會,因為「只」得到 4 分的司機在演算法的排序下很有可能完全接不到單,有司機向媒體分享,如果他分數在 4.6 分以下,那他真的得擔心自己未來要怎麼辦3

評價別人很容易,但是我們在評價別人之前,有沒有想過我們給的分數對眼前這個人會有多大的影響?圖/Johannes Rapprich@Pexels

由於司機們覺得乘客在評分的時候,根本沒有意識到他們輕易給的一個分數會對司機的職涯有重大影響,於是司機們索性就在椅背上貼著一張紙,向乘客說明他們給的分數在評價系統代表的意義:

  • 五分 = 這趟旅程很棒、還算可以,在路途中司機可能沒有注意到一些社交線索或是說了冷笑話,但至少他載我到我的目的地。
  • 四分 = 這個司機很差勁,慢慢的開除他吧。(四分並不表示這趟旅程是普通或是平均程度,當得到太多四分的時候,我的下場就是流落街頭。)
  • 三分 = 這個司機差勁到極點,我這輩子都不要再見到他。(三分完全不等於「普通」。)
司機們索性就在椅背上貼著一張紙,向乘客說明他們給的分數在評價系統代表的意義。圖/BuzzFeed News

這個問題也不是在美國才有,前一陣子我訪談台灣 Uber 司機,也有司機提到他必須很努力讓分數維持在 4.9 分以上,否則搶不到單;除此之外,今年也有 Uber Eats 的外送員表示如果他接收到一個負評,就需要靠多接很多訂單才能洗白,評分如果掉到 90 分以下也會被警告2

-----廣告,請繼續往下閱讀-----

當演算法介入評價系統,如果沒有讓所有利益關係人(司機與乘客)都知道背後運作的機制,帶來的不只是司機工作權益的問題,這些心理壓力連帶也會影響司機與乘客之間的關係。像是司機以為乘客帶有惡意在評價自己,對乘客有過高的警戒心等等。

捉摸不定的演算法帶來焦慮

另一方面,讓人捉摸不定的評價系統也會對使用者帶來焦慮。這裡以 Airbnb 的例子來說明。

Airbnb 也是實現共享經濟的一個提供住房服務的平台,他們的研究員為了了解自己公司設計的演算法對於屋主的影響,在 2017 年訪談了 15 位使用他們平台提供住房服務的屋主6,發現房東們需要經常煩惱兩件事情,一個是如何吸引顧客,另一個是如何符合 Airbnb 演算法的期待。

房東們需要經常煩惱兩件事情,一個是如何吸引顧客,另一個是如何符合Airbnb演算法的期待。圖/取自Airbnb網站

屋主們經常擔心自己做了什麼事或沒做什麼事會被平台背後的演算法判定是「不好的」,進而影響自己的獲利。舉例來說,在 Airbnb 上面,旅客可以依序瀏覽符合搜尋條件的住處,但是誰的房子會先被看到是怎麼決定的呢?

由於屋主們不清楚演算法根據什麼來讓自己的房間被放在選單最上面,於是他們就定期更新房屋的照片、儘可能快速的回覆房客提問、或甚至是把房屋內各種設施都寫在標題,嘗試影響演算法排序的結果,想辦法在他們可以調整的範圍內讓自己的房間被房客瀏覽到。

-----廣告,請繼續往下閱讀-----

對抗不透明評價系統:守規矩+逆向工程

面對這難懂的評價系統該怎麼辦?這個研究的另一個發現是屋主們會用一些方法來讓自己接受這個難以捉摸的評價系統,像是告訴自己演算法應該會是「公平的」,只要乖乖照著 Airbnb 的指示做,演算法就會讓他們更容易被房客搜尋到。

舉例來說,只要把自己的客戶評價都維持得很好,他們就確信 Airbnb 的演算法會讓自己的房屋被放在搜尋頁面上。

此外,研究者也發現另一招屋主會使用的方式是自己當工程師實測看看,透過逆向工程的方式,和網站上其他房東提供的房子的比較、自己嘗試改變網頁上的資料、根據附近的房價彈性調整自己房屋的價錢,或是去網路上爬各種房東的分享文來看,用盡各種方式來推測系統評價他們的方式。

共享經濟的評價系統可以如何改善?

Airbnb 對自家的服務做了深入的研究,透過這個研究,他們其實也發現了另一個難題:系統演算法到底應該設計得多透明?

-----廣告,請繼續往下閱讀-----

對於公司利益來說,保持演算法有一定程度的模糊地帶是為了避免房東鑽漏洞,但是設計得太難捉摸又會使得房東無所適從,因此,他們提出了幾個共享經濟的平台可以改善的這種方案:

  1. 當房東嘗試在平台上做出會讓平台演算法判斷為「不好」的行為的時候,這時系統可以自動偵測並提醒他,幫助房東判斷哪些行為是對演算法的輸出有影響的,而哪些因素是演算法根本不會納入考量的。像是當房東延遲回覆太多次,背後的演算法就會把這個行為判斷為不好,這時候系統可以提醒房東,回覆速度的快慢會影響他的房間曝光度;但是如果房東經常更動標題,把不同關鍵字放在標題中,系統就可以提醒他做這些事可能大部分只是徒勞無功XD
  2. 這類型服務平台演算法在評價房東的時候,可以盡量只參考房東可以控制或改變的參數,像是他們的回覆態度、回覆頻率、顧客評價等,而盡量避開一些他們無法自己決定的因素,像是房子所處的地理位置或是擔任房東多久這些先天就決定好也難以做出什麼改變的因素。
    補充:這裡的房東評價指的是房客會看到的分數,例如一個房東得 7 分(假使總分 10 分),不是因為納入了他的房子地理位置,而是因為他回覆太慢或態度不夠好這種他自己可以決定的因素,而不是一個他努力也改變不了的因素。
    如同我們平常在被評價一樣,不能因為我是「女生」或我是「亞洲人」就認為我是一個比誰好或比誰不好的人,因為性別跟種族不是我們能控制的。
  3. 該怎麼在平台本身 (Airbnb)、服務提供者(房東)、服務使用者(房客)三個利益關係人之間取得平衡?目前可能的一種解法就是平台透過一些設計來促進房東跟房客之間的關係,像是想辦法透過系統設計來讓房東更同理房客的需求,另一方面讓房客也看見房東的努力,藉由提升雙方關係來達到三贏的局面
透過一些設計來提升雙方關係,來達到三贏的局面。圖/Pixabay@Pexels

其實不只 Uber、Airbnb,透過社群媒體行銷或是推出創作內容的人,也會面臨類似的焦慮。當 YouTuber 不知道 YouTube 是根據什麼機制來推薦自己生產的內容給觀眾時、藝術作品放在 IG 上不知道會被誰觸及、文章分享在 FB 或 Medium 上卻不了解平台背後演算法是如何影響觀眾觸及創作內容時,這些都會對內容或服務提供者帶來很多不可控制感以及焦慮。

辨識自己周圍的評價系統

一個適當的評價系統可以塑造出「好」的行為,就像 Airbnb 的優良房東機制就能鼓勵房東們帶給房客信任感以及良好的溝通,但是一個不適切的評價系統,就像是自己建立了一個不適當的牢籠來綑綁自己,引導人做出不適切的行為。

這篇文章並不是要傳達我們得完全摒除評價系統,畢竟有這些評價系統我們才有線索知道自己多會玩人生這場遊戲,這篇文章想讓大家意識到的是:

-----廣告,請繼續往下閱讀-----

我們每個人所處的社會位置,其實都有不同的評價系統在影響我們的行為。

從小到大的我們的行為都被被各種不同的評價系統所形塑著,大學招生的時候會評量一個學生主科好不好,所以我們就想盡辦法在這些會被評量的層面上花很多時間,然後壓縮自己做其他休閒的時間(想想你是不是也經歷過類似從小開始學鋼琴、舞蹈、畫畫但是升上國高中後因為要「專心讀書」就中斷XD)。

大學的時候如果出席分數佔很多,我們就想辦法點名的時候一定要到;公司績效評鑑的時候要看我們業績多好,拉了多少客戶、提出多少可執行的企劃案,我們就用各種不同的方式達到帳面上可以交代的數字;學校計畫需要成果展示,當初規劃的經費有沒有用完是評量計畫成果的指標,我們就在計畫截止前趕快把錢花完;不勝枚舉。

我們每個人所處的社會位置,其實都有不同的評價系統在影響我們的行為。圖/schach100@Pexels

許多時候衝突與傷害就來自於我們跟合作夥伴在不同的評價系統標準下互動,當兩個站在不同位置的人需要合作或互動的時候,他們各自所處的評價系統就會影響他們決定做什麼事以及決定怎麼做的優先順序。

舉例來說,當某些教授被評價的方式是研究發表量,而某些研究生被評價的方式是就業能力時,兩個不同的評價系統就會造成兩方目標不一致,然後形成衝突,一方覺得做研究比較重要,另一方覺得找工作重要。

-----廣告,請繼續往下閱讀-----

在工作場合,設計師部門被評價的方式可能是讓使用者有好的體驗,但假使工程部門被評價的方式是有效率的做完手邊的案子,兩方合作就會因為目標不一致導致溝通受阻。

產業界被評價的方式是銷售量、可執行性,學術界被評價的方式是研究的創新與前瞻性,來自兩個不同評價系統中的人一旦需要對話,就容易因為沒看到各自其實是在追求不同目標而互相看不起。

看清自己處在什麼評價系統之中

談了這麼多並不是要得到一個「人生好難」的結論,而是希望大家在看完之後,去想想現在自己的社會角色(學生、員工、伴侶、晚輩、管理者、領導人等)是受什麼評價系統影響、這個評價系統衡量的價值是跟你在意的價值一致嗎?

一致的話,恭喜你!你能在這個角色上盡情發揮、如魚得水;但如果發現目前的評價系統不適合自己的話,可以想想這個評價系統評量你的方式真能夠衡量到某個價值嗎(創作品質、教學品質、設計品質、產量等等)?不適合的話,要不要考慮換到一個評價系統適合自己的地方?或是能如何改變這個評價系統?

記住,評價系統是人類自己建立的,人類需要仰賴評價系統來確認自己的價值跟位置。這個系統的存廢與內涵也只有我們自己能改變。

延伸了解更多:

  1. 【 志祺七七 】Uber 該不該禁?政府又在針對 Uber 修法了嗎?《政策翻譯蒟蒻》EP.007
  2. [談理解] 不懂智慧裝置怎麼用的問題出在哪? — 智慧系統的解釋機制

參考資料

  1. Uber Eats桃園-市場分析,到底適不適合全職做呢?(2019/07/01更新) @ 大小人
  2. 自由時報 (2019, July 24).
    易遭惡意洗負評? Uber Eats評分機制引外送員不滿
  3. O’Donovan, C. (2017, April 11)
    Nobody Knows What Five Star Ratings Mean. That’s Bad For Gig Workers.
  4. 【心得】台中UBEREATS外送員心得<更新如何增加接單率攻略>
  5. Uber機車UberEATS 台北獎勵方案(含最新嘉義雲林宜蘭花蓮) @Uber司機安安(10/14已更新) @ Uber司機安安租賃靠行包車旅遊一條龍服務
  6. Jhaver, S., Karpfen, Y., & Antin, J. (2018, April). Algorithmic anxiety and coping strategies of Airbnb hosts. In Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems (p. 421). ACM.
  7. 【心得】台中UBEREATS外送員心得<更新如何增加接單率攻略>
  8. Lee, M. K., Kusbit, D., Metsky, E., & Dabbish, L. (2015, April). Working with machines: The impact of algorithmic and data-driven management on human workers. In Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems (pp. 1603–1612). ACM.
  9. Uber Eats桃園-當日達標獎勵與新人推薦獎勵的迷思(2019/07/01更新) @ 大小人 
  10. 數位時代—王郁倫 (2019, October 15)
    5萬外送員是雇傭還承攬?Uber Eats、foodpanda現身說:讓我們有下一個七年!

本文轉載自人機共生你我它,原文為〈[談評價系統與行為] 不適切的評價系統如何影響食物平台外送員?以及你、我?

文章難易度
人機共生你我它_96
12 篇文章 ・ 3 位粉絲
由致力於人機互動研究(HCI, Human-Computer Interaction)的研究者與實務工作者所創立,我們定期發表人機互動相關文章,與讀者一起思考科技對社會生活帶來的好處與限制。

1

2
0

文字

分享

1
2
0
AI 也會出差錯?使用人工智慧可能帶來的倫理與風險——《科學月刊》
科學月刊_96
・2023/02/19 ・3976字 ・閱讀時間約 8 分鐘

  • 甘偵蓉|清華大學人文社會 AI 應用與發展研究中心博士後研究學者。

Take Home Message

  • Facebook 或 Instagram 的訊息推薦、YouTube 或 Netflix 推薦觀賞影片、掃瞄臉部以解鎖手機,AI 應用早已在我們日常生活中隨處可見。
  • AI 應用中四種常見的倫理和風險:演算法偏誤、相關技術或產品偏離原先使用目的、擁有善惡兩種用途,以及演算法設計不良或現有技術限制。
  • 近年來各國家皆制訂有關 AI 發展的規範,臺灣則在 2019 年制訂「AI 科研發展指引」,期望能改善 AI 發展帶來的問題與風險。

當談到人工智慧(artificial intelligence, AI)、也就是 AI 時,讀者會想到什麼?是多年前由史匹柏(Steven Spielberg)導演的那部《A.I. 人工智慧》(A.I. Artificial Intelligence)中那個一直盼不到人類母愛而令人心碎的機器人小男孩?還是由史密斯(Will Smith)主演的《機械公敵》(I, Robot)裡那些沒遵守機器人三大法則的機器人或中央系統?

《A.I. 人工智慧》(A.I. Artificial Intelligence)電影海報,上映於 2001 年。圖/IMDb

或許未來有一天,人類真的可以設計出如電影中那些像人一樣的 AI 系統或機器人。但目前為止,你常聽到的 AI 其實既很厲害又很不厲害,為什麼呢?厲害的是它下圍棋可贏過世界冠軍,還能夠比放射科技師更快、更準確地辨識 X 光片中疑似病變的細胞;但它不厲害的是,很會下圍棋的 AI 就只能下圍棋,別說不會打牌,連撲克牌是什麼都不知道!而且每次學新事物幾乎都是打掉重練,得不斷做好多考古題才有可能學得會,不像人類通常教幾次就會舉一反三。

不過,即使目前世界上的 AI 都是這種只具備特定功能的「弱 AI」(artificial narrow intelligence, ANI),但已經為這個世界帶來相當大的進步與便利。所以,以下要談的就是 ANI 的倫理與風險。

談到這種只具特定功能的 ANI,讀者知道目前生活周遭有哪些事物有利用 AI 技術嗎?其實 Google 上的搜尋資訊、Facebook 或 Instagram 的訊息推薦、對智慧型手機喊「Siri 現在外面有下雨嗎?」等功能,或是以掃瞄臉部解鎖手機與進入大樓、YouTube 或 Netflix 推薦觀賞影片,甚至是投履歷求職、銀行審核貸款申請等都常用到 AI 技術,它早在我們日常生活中隨處可見。

-----廣告,請繼續往下閱讀-----
AI 技術在日常生活中隨處可見,如 YouTube 推薦觀看影片。圖/Pexels

但也正是如此,讓人們這幾年在使用 AI 時,逐漸發現它可能造成的問題或傷害,以下簡單介紹常見的四種AI應用可能造成的倫理問題或風險。

演算法偏誤

第一種是演算法偏誤(algorithmic bias)。什麼是演算法偏誤?簡單來說就是 AI 在某些群體的判斷準確率或預測結果上總是很差,導致結果可能對於此群體造成系統性的不利。但為何會造成演算法偏誤?常見原因有三項。

第一項原因是,建立 AI 模型的研究資料集有偏誤,在性別、種族、社經地位等特徵上,沒有真實世界的人口分布代表性。例如數位裝置採用 AI 臉部辨識技術解鎖,原本是希望保護個人使用數位裝置的安全性,結果皮膚深的人卻常常遇到辨識失敗而無法解鎖。這通常是因為目前許多 AI 模型都是以機器學習技術設計,而機器學習的主要特性就是從過去人類留下的大量資料中學習;當初提供電腦學習臉部辨識的圖片時,如果多數都是白皮膚而非黑皮膚、多數都是男性的臉而非女性的臉,那麼電腦在學習辨識人臉的準確率上,整體而言辨識男性白人就會比辨識女性黑人要高出許多。

第二項產生演算法偏誤的原因是建立 AI 模型的研究資料集不只有偏誤,還反映現實社會中的性別、種族、社經地位等歧視;例如美國警政單位以過往犯罪資料訓練出獄後犯人再犯風險評估的 AI 模型,那些資料不意外地有色人種的犯罪紀錄遠多於白人犯罪紀錄。然而,那些紀錄也反映美國社會長久以來對於有色人種的歧視,其中包含警察對於有色人種的盤查比例遠高於白人、法院對於有色人種的定罪比例及判刑嚴重程度也遠高於白人、警力通常被派往多黑人與拉丁裔人種居住的窮困社區盤查等。所以根據過往犯罪資料所訓練出來的 AI 模型,不意外地也就會預測有色人種的再犯機率普遍來說比白人高。

-----廣告,請繼續往下閱讀-----

第三項產生演算法偏誤的原因則是 AI 學會了連系統開發者都沒有察覺到,潛藏在資料裡的偏誤。例如科技公司人資部門本來想借助 AI 更有效率地篩選出適合來面試的履歷,所以挑選在該公司任職一定年資且曾升遷二次的員工履歷來訓練 AI 模型。問題是,高科技公司向來男多女少,所提供給 AI 學習的資料自然就男女比例相當不均。AI 也就學會了凡是出現偏向女性名字、嗜好、畢業學校系所等文字的履歷,平均所給的評分都比出現偏向男性等相關文字的履歷還低。

潛藏在資料裡的偏誤造成 AI 預測結果彷彿帶有性別歧視。圖/Envato Elements

但目前科技公司陽盛陰衰,是受到以往鼓勵男性就讀理工、女性就讀人文科系,或男性在外工作女性在家帶小孩等性別刻板偏見所影響。所以 20~30 年來許多人做出各種努力以消除這種性別刻板偏見所帶來的不良影響,政府也努力制定各種政策來消除這種不當的性別偏見,像是求才廣告基本上不能限定性別、公司聘雇員工應該達到一定的性別比例等。因此,訓練 AI 的研究資料一旦隱藏類似前述性別比例不均的現象,訓練出來的 AI 預測結果就彷彿帶有性別歧視,讓人們過往致力消除性別不平等的各種努力都白費了!

其他 AI 應用帶來的倫理與風險

除了演算法偏誤的問題外,第二種可能帶來的倫理問題或風險是 AI 技術已經偏離原先使用目的,例如深偽技術(deepfake)原本用來解決圖片資料量不夠的問題,後來卻被利用在偽造名人性愛影片等。

第三種則是有些 AI 技術或產品本身就可能有善惡兩種用途(dual-use)。例如 AI 人臉辨識技術可用在保護數位裝置的使用者或大樓保全,但也可用來窺探或監控特定個人;無人機可以在農業上幫助農夫播種,但也可作為自動殺人武器;可用來搜尋如何產生毒性最少的藥物合成演算法,也能反過來成為搜尋如何產生毒性最強的藥物合成演算法。

-----廣告,請繼續往下閱讀-----

最後,第四種是演算法設計不良或現有技術限制所導致的問題。在演算法設計不良方面,例如下棋機器人手臂可能因為沒有設計施力回饋或移動受阻暫停等防呆裝置,而造成誤抓人類棋手的手指且弄斷的意外。在現有技術限制方面,道路駕駛的交通標誌在現實中可能時常有老舊或髒汙的情況,儘管對於人類駕駛來說可能不影響判讀,但對於自駕車來說很可能就因此會嚴重誤判,例如無法正確辨識禁止通行標誌而繼續行駛,或是將速限 35 公里誤判成 85 公里等。但前述情況也有可能是自駕車網路、控制權限或物件辨識模型受到惡意攻擊所致。

以上介紹了 AI 常見的四種倫理問題或風險:演算法偏誤、相關技術或產品偏離原先使用目的、擁有善惡兩種用途,以及演算法設計不良或現有技術限制。但人們該如何減少這些倫理問題與風險呢?

培養AI使用倫理與風險的敏銳度

近五、六年來國際組織如聯合國教育科學及文化組織(United Nations Educational, Scientific and Cultural Organization, UNESCO)、歐盟(European Union, EU)、電機電子工程師學會(Institute of Electrical and Electronics Engineers, IEEE)或是國家、國際非營利組織皆紛紛制訂有關 AI 發展的白皮書或倫理指引(ethical guidelines),甚至逐漸朝向法律治理的方向,如歐盟的人工智慧規則草案等。儘管這些文件所提出的倫理價值、原則或行為規範,看似各有不同,但經過這些年的討論與摸索,也逐漸匯聚出一些共識。

「人工智慧科研發展指引」提出三項倫理價值,包含以人為本、永續發展、多元包容。圖/Pexels

臺灣相較於前述國際文件來說,在制訂的時間上比較晚。2019 年由當時的科技部(現改為國科會)制訂「人工智慧科研發展指引」,裡面提出的三項倫理價值以及八項行為指引,基本上涵蓋了前述各種國際 AI 發展指引文件最常提及的內容。所謂三項倫理價值包含以人為本、永續發展、多元包容,行為指引則有共榮共利、安全性、問責與溝通、自主權與控制權、透明性與可追溯性、可解釋性、個人隱私與數據治理、公平性與非歧視性共八項。

-----廣告,請繼續往下閱讀-----

未來當讀者看到又出現哪些 AI 新技術或產品時,不妨試著評估看看是否有符合這三項價值及八項行為指引。若沒有,究竟是哪項不符合?不符合的原因是上述所介紹常見的四種倫理問題或風險的哪一種?若都不是,還有哪些倫理問題或風險過去被忽略了但值得重視?

AI 技術發展日新月進,在日常生活中的應用也愈來愈廣。但考量法律條文有強制性,在制訂時必須相當謹慎,免得動輒得咎,也很可能在不清楚狀況下反而制訂了不當阻礙創新發展的條文;再加上法律制定也必須有一定的穩定性,不能朝令夕改,否則會讓遵守法規者無所適從。因此可以想見,法令規範趕不上新興科技所帶來的問題與風險本來就是常態,而非遇到 AI 科技才有這種情況。

人們若能培養自身對於 AI 倫理問題或風險的敏銳度,便可發揮公民監督或協助政府監督的力量,評估 AI 開發或使用者有無善盡避免傷害特定個人或群體之嫌,逐漸改善 AI 開發者與大眾媒體常過度誇大 AI 功能,但對於可能帶來的倫理問題或風險卻常閃爍其詞或避而不談的不好現象。

本文感謝工業技術研究院產業科技國際策略發展所支持。

  • 〈本文選自《科學月刊》2023 年 2 月號〉
  • 科學月刊/在一個資訊不值錢的時代中,試圖緊握那知識餘溫外,也不忘科學事實和自由價值至上的科普雜誌。
所有討論 1
科學月刊_96
249 篇文章 ・ 3494 位粉絲
非營利性質的《科學月刊》創刊於1970年,自創刊以來始終致力於科學普及工作;我們相信,提供一份正確而完整的科學知識,就是回饋給讀者最好的品質保證。

0

1
0

文字

分享

0
1
0
AI 的 3 種學習形式:不同的目標功能,不同的訓練方式——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/27 ・2368字 ・閱讀時間約 4 分鐘

搭配不同的任務,人工智慧的應用方式也不一樣,所以開發人員用來創造人工智慧的科技也不一樣。這是部署機器學習時最基礎的挑戰:不同的目標和功能需要不同的訓練技巧。

機器學習最基礎的挑戰:不同目標和功能需配合不同訓練技巧。圖/Pexels

不過,結合不同的機器學習法,尤其是應用神經網路,就出現不同的可能性,例如發現癌症的人工智慧。

機器的 3 種學習形式

在我們撰寫本章的時候,機器學習的三種形式:受監督式學習、不受監督式學習和增強式學習,都值得注意。

受監督式學習催生了發現海利黴素的人工智慧。總結來說,麻省理工學院的研究人員想要找出有潛力的新抗生素,在資料庫裡放入二千種分子來訓練模型,輸入項目是分子結構,輸出項目是抑菌效果;研究人員把分子結構展示給人工智慧看,每一種結構都標示抗菌力,然後讓人工智慧去評估新化合物的抗菌效果。

-----廣告,請繼續往下閱讀-----

這種技巧稱為受監督式學習,因為人工智慧開發人員利用包含了輸入範例(即分子結構)的資料集,在這裡面,每一筆數據都單獨標示研究人員想要的輸出項目或結果(即抗菌力)。

開發人員已經把受監督式學習的技巧應用於許多處,例如創造人工智慧來辨識影像。為了這項任務,人工智慧先拿已經標示好的圖像來訓練,學著把圖像和標籤,例如把貓的照片和「貓」的標籤,聯想在一起,人工智慧把圖片和標籤的關係編碼之後,就可以正確地辨識新圖片。

貓貓!圖/Pexels

因此,當開發人員有一個資料集,其中每個輸入項目都有期望的輸出項目,受監督式學習就能有效地創造出模型,根據新的輸入項目來預測輸出項目。

不過,當開發人員只有大量資料,沒有建立關係的時候,他們可以透過不受監督式學習來找出可能有用的見解。因為網際網路與資料數位化,比過去更容易取得資料,現在企業、政府和研究人員都被淹沒在資料中。

-----廣告,請繼續往下閱讀-----

行銷人員擁有更多顧客資訊、生物學家擁有更多資料、銀行家有更多金融交易記錄。當行銷人員想要找出客戶群,或詐騙分析師想要在大量交易中找到不一致的資訊,不受監督式學習就可以讓人工智慧在不確定結果的資訊中找出異常模式。

這時,訓練資料只有輸入項目,然後工程師會要求學習演算法根據相似性來設定權重,將資料分類。舉例來說,像網飛(Netflix)這樣的影音串流服務,就是利用演算法來找出哪些觀眾群有類似的觀影習慣,才好向他們推薦更多節目;但要優化、微調這樣的演算法會很複雜:因為多數人有好幾種興趣,會同時出現在很多組別裡。

影音串流服務利用演算法,進而推薦使用者可能喜歡的節目。圖/Pexels

經過不受監督式學習法訓練的人工智慧,可以找出人類或許會錯過的模式,因為這些模式很微妙、數據規模又龐大。因為這樣的人工智慧在訓練時沒有明定什麼結果才「適當」,所以可以產生讓人驚豔的創新見解,這其實和人類的自我教育沒什麼不同——無論是人類自學或是人工智慧,都會產生稀奇古怪、荒謬無理的結果。

不管是受監督式學習法或不受監督式學習法,人工智慧都是運用資料來執行任務,以發現新趨勢、識別影像或做出預測。在資料分析之外,研究人員想要訓練人工智慧在多變的環境裡操作,第三種機器學習法就誕生了。

-----廣告,請繼續往下閱讀-----

增強式學習:需要理想的模擬情境與回饋機制

若用增強式學習,人工智慧就不是被動地識別資料間的關聯,而是在受控的環境裡具備「能動性」,觀察並記錄自己的行動會有什麼反應;通常這都是模擬的過程, 把複雜的真實世界給簡化了,在生產線上準確地模擬機器人比較容易,在擁擠的城市街道上模擬就困難得多了。

但即使是在模擬且簡化的環境裡,如西洋棋比賽,每一步都還是會引發一連串不同的機會與風險。因此,引導人工智慧在人造環境裡訓練自己,還不足以產生最佳表現,這訓練過程還需要回饋。

西洋棋比賽中的每一步會引發一連串機會與風險。圖/Pexels

提供反饋和獎勵,可以讓人工智慧知道這個方法成功了。沒有人類可以有效勝任這個角色:人工智慧因為在數位處理器上運作,所以可以在數小時或數日之內就訓練自己幾百次、幾千次或幾十億次,人類提供的回饋相比之下根本不切實際。

軟體工程師將這種回饋功能自動化,謹慎精確地說明這些功能要如何操作,以及這些功能的本質是要模擬現實。理想情況下,模擬器會提供擬真的環境,回饋功能則會讓人工智慧做出有效的決定。

-----廣告,請繼續往下閱讀-----

阿爾法元的模擬器就很簡單粗暴:對戰。阿爾法元為了評估自己的表現,運用獎勵功能,根據每一步創造的機會來評分。

增強式學習需要人類參與來創造人工智慧的訓練環境(儘管在訓練過程中不直接提供回饋):人類要定義模擬情境和回饋功能,人工智慧會在這基礎上自我訓練。為產生有意義的結果,謹慎明確地定義模擬情境和回饋功能至關重要。

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

聯經出版_96
27 篇文章 ・ 20 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。

2

2
1

文字

分享

2
2
1
你覺得 AI 會思考嗎?從圖靈測驗到 AlphaGo ,持續進步的人工智慧——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/26 ・2373字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

原本人類就對機器有些好奇:機器會思考嗎?機器有智力嗎?機器會有智力嗎?

這些問題本來還不急著回答,但是當研究人員在一九四三年創造出第一台現代電腦,也就是電子、數位、可編寫程式的機器之後,這些問題就顯得急迫了。

這些問題看來格外費解,因為智力的本質一直都沒有答案。

機器有智力嗎?會思考嗎?圖/Pexels

機器人有智力嗎?圖靈測試出現

數學家與解碼專家亞倫.圖靈(Alan Turing)在一九五○年提出解決方案,他的文章標題相當謙和,他在〈計算機器與智力〉一文中建議完全擱置機器智力的問題。圖靈認為真正重要的不是機制,而是智力的展現;他解釋說,因為其他生物的內在生命仍不可知,所以我們衡量智力的唯一方法就是觀察外部行為。圖靈用這個觀點避開長達數世紀的哲學辯論,不去討論智力的本質。

-----廣告,請繼續往下閱讀-----

他所推出的「模仿遊戲」就是讓一台機器操作熟練到觀察者無法區別機器和人類的行為,屆時,這台機器就可以貼上「擁有智力」的標籤。

圖靈測試就出現了。

很多人望文生義,從字面解釋圖靈測試,想像著機器人符合條件的話就會和人一樣(如果真有其事的話)。實際應用上,在遊戲或競賽等定義明確、狀況設定清楚的活動中,圖靈測試可有效衡量「有智力的」機器表現如何。圖靈測試並不要求機器做到和人類完全無法區分的地步,而是要判斷機器的表現是不是像人;在這過程中,圖靈測試著重於表現,而非過程。

這樣的產生器算人工智慧,倒不是因為的模型細節符合什麼標準,而是因為他們寫出來的訊息很接近人類寫出來的訊息,能通過測試是因為這模型經過訓練,運用大量線上資訊。

-----廣告,請繼續往下閱讀-----
電影《模仿遊戲》改編 自圖靈於二戰期間,幫助破譯納粹軍事密碼的真實故事。圖/IMDb

人工智慧怎麼「學習」?

一九五六年,科學家約翰.麥卡錫(John McCarthy)進一步定義了人工智慧:

若機器可執行「需要人類智力才能進行的工作」,即具備人工智慧。

圖靈和麥卡錫對人工智慧的評估自此形成基準,將我們的焦點從智力的定義轉移到表現(看似有智的行為)的評估上,不再聚焦於人工智慧這個詞在更深奧的哲學、認知與神經科學層面。

過去的半個世紀以來,機器幾乎都無法呈現這種智力,這條死路好像已經走到底了。電腦在精確定義的程式基礎上運作數十年,但因為電腦既靜態且僵化,所以電腦分析也受到局限;傳統的程式可以組織大量資料,執行複雜的計算,可是卻無法辨識類似物品的圖片,或適應不準確的輸入項目。

人類思想不精確又模糊,確實是人工智慧發展過程中難以排除的障礙。然而,過去的十年內,創新的運算方式已經創造出新的人工智慧,模稜兩可的程度可和人類相提並論。人工智慧也不精確、恆動、隨機應變,並且能夠「學習」。

-----廣告,請繼續往下閱讀-----

人工智慧「學習」的方式就是先消化資料,然後從資料中觀察,得出結論。

過去的系統需要精確地輸入和輸出項目,不精確的功能人工智慧就不需要。人工智慧在翻譯的時候,不會把每個字都替換掉,而是會找出模式和慣用語,因此翻出來的譯文也會一直變化,因為人工智慧會隨著環境變遷而進化,還能辨識出對人類很新奇的解決方案。在機器領域裡,這四種特質都具有革命性。

以前需仰賴專業棋士,將棋路編寫為程式。圖/Pexels

以阿爾法元在西洋棋世界的突破來說,以前的西洋棋程式要倚賴人類的專業,把人類的棋路編寫為程式;但阿爾法元的技巧是自己和自己對戰數百萬場後磨練出來的,軟體從對戰過程中自己發現了模式。

飛快進步的演算法

這些「學習」技巧的基石是演算法,而演算法就是一連串的步驟,把輸入項目(例如遊戲規則或棋子的走法)翻譯成可重複的輸出項目(例如獲勝)。經典演算法例如長除法等計算,必須精準、可預測,機器學習演算法則不用;經典演算法有許多步驟,分別產出精準的結果,機器學習演算法則一步一步改善不精準的結果。

-----廣告,請繼續往下閱讀-----

這些技巧目前進步飛快,以航空來說,很快地,人工智慧就能成為各種飛行器的正駕駛或副駕駛了。在美國國防部高等研究計劃署(DARPA)的專案「阿爾法纏鬥」(Alpha Dogfight)中,人工智慧戰機飛行員在模擬戰鬥中的表現超越了人類飛行員;不管是要操縱噴射機參戰或操縱無人機送貨,人工智慧都會劇烈影響軍事與民用航空。

人工智慧能成為各種飛行器的駕駛。圖/Pexels

儘管我們現在看到的創新還只是開端,但這些變化已經微妙地改變了人類體驗的紋理,在接下來的數十年內,這趨勢只會愈來愈快。

驅動人工智慧轉型的科技概念很複雜也很重要,所以本章會特別解釋機器學習的演化、現況與應用,說明儘管機器學習強大到讓人害怕,但也有自身的限制。

我們必須先簡介機器學習的架構、能力和限制,才能理解機器學習將帶來的社會、文化和政治變化。

-----廣告,請繼續往下閱讀-----

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

所有討論 2
聯經出版_96
27 篇文章 ・ 20 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。