0

0
0

文字

分享

0
0
0

提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠

陳妤寧
・2016/05/24 ・2883字 ・閱讀時間約 6 分鐘 ・SR值 557 ・八年級

-----廣告,請繼續往下閱讀-----

採訪編輯 / 陳妤寧

大數據如果要化為能在市場上提供服務的產品,除了在要科技上持續突破,也需要能解決真實世界中的消費者、企業或政府決策者、等等不同使用者的難題。

典通股份有限公司多年來以民意和市場調查為主要經營項目,隨著大數據的興起,典通也轉投資新公司「Dataa」-浚鴻數據開發股份有限公司,以典通厚植的市場研究經驗為基礎,提供大數據解決方案。他們建議客戶,大數據和傳統民調不可偏廢,兩者應該扮演相輔相成的效果,這是為什麼?

輿情分析和民意調查,兩者相輔相成

成功的大數據服務商業模式,就如同過去股民手上拿的股票機一樣,廠商把上千支的股票資料進行分析,最後推薦用戶哪幾支股票的表現值得推薦。而在這個媒體發達、資訊爆炸的時代,公眾人物、公關從業者或是需要了解民意方向的地方首長,都需要了解大眾現在最關心的新聞是什麼?態度是正面是負面?哪些媒體對自己比較友善?這些運籌帷幄的智囊,如今都存乎於像典通這樣的公司提供的輿情分析服務中,一切的關鍵在於解決使用者的需求和問題。

-----廣告,請繼續往下閱讀-----

但典通的總經理楊雅惠單刀直入地說,如果單純爬梳網路上所有論壇和社群媒體上的意見就直接做出情勢判斷,是存在風險的。「不是所有的人都會在網路上發言,而我們正在分析的這些網路發文,會不會北部人遠多於南部人?會不會高學歷者多於教育程度偏低者?會不會除了少數意見領袖之外,還有太多的網友只有『潛水』瀏覽、而沒有發表意見?」為了確保輿情分析的結果能夠具有代表性(換言之,等於參考價值),楊雅惠主張過去的抽樣調查也必須同步進行,作為判讀輿情分析結果的輔助。

以典通自身為例,一方面透過內建的會員平台進行民調施測,由於平台不對外開放,得以控制會員年齡、性別、地理區域等特性分布的均質性,避免開放式民調平台無法控制同一人重複填答的問題。另一方面,典通也以傳統的電話訪問調查年齡層偏高的族群,以有別於出生長大都在網路發達環境的「網路原生代」。雖然樣本相對少,然而嚴謹確保代表性的做法,卻能夠和利用大數據進行輿情分析的結果互相參照、相輔相成,「如果兩者的顯示結果落差很大,那麼就值得深入研究其中蹊蹺。」

資訊工程和統計分析結合,同時洞悉趨勢和掌握因果

本身是統計學專業背景的楊雅惠從學門的角度分析,認為大數據以資訊工程和演算法為領頭,目標為「快」和「廣」,如何解釋因果關係反而不是重點。「例如我們的客戶中有產險公司,希望能夠建立一套如何判定『拒絕誰來投保』的機制,所以重點是從過去累積的海量資料中分析出規律,最後的結果很可能是費人思索的,例如身高體重等等無法立刻得到解釋的各種變數。但在此情況中,得知因果並不如準確洞悉大趨勢來的重要。」

但在其他情境很可能就恰好相反了,以醫療領域來說,確認因果關係就非常重要,也需要更多特定領域的專家加入分析判讀。而統計學以機率為基礎,雖然運算方式較為複雜,使得運算速度不如以「0 和 1」為邏輯的演算法來的快速,但更能深入研究因果關係。「時至今日,其實我們利用 R 語言建立迴歸分析,矩陣演算的速度也已大幅提昇。」楊雅惠細細解釋,當我們談到模型時,一是指產生統計指標的函數模型,二則是指整合不同統計指標、產出一個立體象限的決策模型,後者更靠近客戶直接做出決定的端點。

-----廣告,請繼續往下閱讀-----

雖然如此劃分兩種學門擔當的角色,楊雅惠認為兩者之間並非對立的關係。「大數據可以解決資料端的問題,統計分析則能在尋求因果解釋時突破片面,兩者互補合作,是對於客戶較為完整的解決方案。」在商業應用的世界中,一切終究需要回歸到客戶的需求:當科技和新技術持續推陳出新,哪些能夠為客戶的問題帶來解決方案?

提昇數據代表性,統計也能優化輿情分析模型

話說回輿情分析,難道「大」數據就沒有精緻化的可能嗎?其實透過深入研究大眾在網路上發表意見的行為模式,可以在分析過程中持續調整權重、減少代表性偏差、優化分析模型。舉例來說,如果同一個發言者連續且大量發言,這種情況就需要調降其權重,避免分析時擴大了單獨一個人的重要性;同樣的,發文者是一般大眾?意見領袖?還是試圖影響輿論的媒體?這些角色如果能分離,也能得出更細緻準確的分析結果。

在正評負評的情緒分析中,可以透過分析一般人使用語言的習慣,找出除了統計正負面的詞語數量之外的分析方法。例如同樣一篇文章標題,後面接的是問號還是驚嘆號,想要傳達的立場可能就完全不同。而許多媒體報導可能為了力求中立,在文章前半段平鋪直敘,直到最後一段才直抒其意,因此文章中的最後一段權重調高,也有助於更良好的判斷網路輿論的正負評聲量。

個人隱私及未統一的數據標準,醫療資料價值服務尚有挑戰

醫療領域的大數據,和其他領域相比有什麼特性?專長在醫療資料分析的楊雅惠表示,最大的癥結點仍在於個資和隱私問題,使得醫療資料的商業模式雖然明確,但利用上仍有諸多挑戰。「例如遠距醫療在技術上已經變成可能,許多穿戴式智慧裝置也都能蒐集個人化的生理資訊,但醫事法規定,醫師必須見到病患本人才能做出診斷。」

-----廣告,請繼續往下閱讀-----

楊雅惠表示,其實法令在今年已經有初步開放,在特定用戶同意的情況下,醫療服務的系統商可以介接健保資料庫的API,存取該特定用戶的健保資料,結合穿戴式智慧裝置記錄的個人生理資訊,協助判斷用戶的身體狀況並提供疾病警訊。

而「非個人化」的醫療資料分析其實已經存在,處於開放初期的健保資料庫,將去個人化的批量資料開放予研究單位,分析國人的健康趨勢。「資料庫會規範最細的分析單位,避免交叉分析造成個人醫療隱私的暴露風險。但可以研究各種預測疾病的模型,一旦個人化的資料到位,模型就能實現為多元的服務應用。」

目前除了醫療資料的隱私問題,另一個挑戰在於各家廠商所推出的個人化穿戴裝置規格不一,醫界對於如何採用這些裝置所記錄的生理數據尚無一致的標準。「例如現行的血壓計,醫界對於在什麼環境、什麼規格所測量出來的數據是否可信是具有共識的;然而現在各種新興的運動手環,可能還不足以成為醫生敢採信的正式醫療數據。」

從市場端的角度分析,楊雅惠認為掌握客戶需求,才能在資料之中問出好問題,進而做出具有代表性的數據分析。反而大數據的定義並不一定是筆數多,以基因資料庫為例,雖然人次不多,但每個人的基因蘊含的變數都很大,整體分析的複雜度也就會隨之提高。最重要的是,隨著機器設備和演算能力的進步、相關平台和工具出現開放的來源,研究大數據的門檻降低,有越來越多的小型團隊得以投入,即使不用昂貴的設備,也能共同開發大數據的未來。

-----廣告,請繼續往下閱讀-----

(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)

責任編輯:鄭國威

大數據專題報導系列:

  1. 資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震
  2. 運用海量資料讓機器「自學」,電腦將成為更好的決策代理人-專訪台大資工教授林守德
  3. 不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉
  4. 從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩
-----廣告,請繼續往下閱讀-----
文章難易度
陳妤寧
38 篇文章 ・ 1 位粉絲
熱愛將知識拆解為簡單易懂的文字,喜歡把一件事的正反觀點都挖出來思考,希望用社會科學的視角創造更宏觀的視野。

0

1
0

文字

分享

0
1
0
停工即停薪:如何證明你的時間值多少?車禍背後的認知 x 情緒 x 金錢 x 法律大混戰
鳥苷三磷酸 (PanSci Promo)_96
・2026/01/09 ・3351字 ・閱讀時間約 6 分鐘

本文與 PAMO車禍線上律師 合作,泛科學企劃執行

走在台灣的街頭,你是否發現馬路變得越來越「急躁」?滿街穿梭的外送員、分秒必爭的多元計程車,為了拚單量與獎金,每個人都在跟時間賽跑 。與此同時,拜經濟發展所賜,路上的豪車也變多了 。

這場關於速度與金錢的博弈,讓車禍不再只是一場意外,更是一場複雜的經濟算計。PAMO 車禍線上律師施尚宏律師在接受《思想實驗室 video podcast》訪談時指出,我們正處於一個交通生態的轉折點,當「把車當生財工具」的職業駕駛,撞上了「將車視為珍貴資產」的豪車車主,傳統的理賠邏輯往往會失靈 。

在「停工即停薪」(有跑才有錢,沒跑就沒收入)的零工經濟時代,如果運氣不好遇上車禍,我們該如何證明自己的時間價值?又該如何在保險無法覆蓋的灰色地帶中全身而退?

-----廣告,請繼續往下閱讀-----
如果運氣不好遇上車禍,我們該如何證明自己的時間價值?/ 圖片來源: Nano Banana

薪資證明的難題:零工經濟者的「隱形損失」

過去處理車禍理賠,邏輯相對單純:拿出公司的薪資單或扣繳憑單,計算這幾個月的平均薪資,就能算出因傷停工的「薪資損失」。

但在零工經濟時代,這套邏輯卡關了!施尚宏律師指出,許多外送員、自由接案者或是工地打工者,他們的收入往往是領現金,或者分散在多個不同的 App 平台中 。更麻煩的是,零工經濟的特性是「高度變動」,上個月可能拚了 7 萬,這個月休息可能只有 0 元,導致「平均收入」難以定義 。

這時候,律師的角色就不只是法條的背誦者,更像是一名「翻譯」。

施律師解釋「PAMO車禍線上律師的工作是把外送員口中零散的『跑單損失』,轉譯成法官或保險公司聽得懂的法律語言。」 這包括將不同平台(如 Uber、台灣大車隊)的流水帳整合,或是找出過往的接單紀錄來證明當事人的「勞動能力」。即使當下沒有收入(例如學生開學期間),只要能證明過往的接單能力與紀錄,在談判桌上就有籌碼要求合理的「勞動力減損賠償 」。

-----廣告,請繼續往下閱讀-----
PAMO車禍線上律師的工作是把外送員口中零散的『跑單損失』,轉譯成法官或保險公司聽得懂的法律語言 / 圖片來源: Nano Banana

300 萬張罰單背後的僥倖:你的直覺,正在害死你

根據警政署統計,台灣交通違規的第一名常年是「違規停車」,一年可以開出約 300 萬張罰單 。這龐大的數字背後,藏著兩個台灣駕駛人最容易誤判的「直覺陷阱」。

陷阱 A:我在紅線違停,人還在車上,沒撞到也要負責? 許多人認為:「我人就在車上,車子也沒動,甚至是熄火狀態。結果一台機車為了閃避我,自己操作不當摔倒了,這關我什麼事?」

施律師警告,這是一個致命的陷阱。「人在車上」或「車子沒動」在法律上並不是免死金牌 。法律看重的是「因果關係」。只要你的違停行為阻礙了視線或壓縮了車道,導致後方車輛必須閃避而發生事故,你就可能必須背負民事賠償責任,甚至揹上「過失傷害」的刑責 。 

數據會說話: 台灣每年約有 700 件車禍是直接因違規停車導致的 。這 300 萬張罰單背後的僥倖心態,其巨大的代價可能是人命。

-----廣告,請繼續往下閱讀-----

陷阱 B:變換車道沒擦撞,對方自己嚇到摔車也算我的? 另一個常年霸榜的肇事原因是「變換車道不當」 。如果你切換車道時,後方騎士因為嚇到而摔車,但你感覺車身「沒震動、沒碰撞」,能不能直接開走?

答案是:絕對不行。

施律師強調,車禍不以「碰撞」為前提 。只要你的駕駛行為與對方的事故有因果關係,你若直接離開現場,在法律上就構成了「肇事逃逸」。這是一條公訴罪,後果遠比你想像的嚴重。正確的做法永遠是:停下來報警,釐清責任,並保留行車記錄器自保 。

正確的做法永遠是:停下來報警,釐清責任,並保留行車記錄器自保 。/ 圖片來源: Nano Banana

保險不夠賠?豪車時代的「超額算計」

另一個現代駕駛的惡夢,是撞到豪車。這不僅是因為修車費貴,更因為衍生出的「代步費用」驚人。

-----廣告,請繼續往下閱讀-----

施律師舉例,過去撞到車,只要把車修好就沒事。但現在如果撞到一台 BMW 320,車主可能會主張修車的 8 天期間,他需要租一台同等級的 BMW 320 來代步 。以一天租金 4000 元計算,光是代步費就多了 3 萬多塊 。這時候,一般人會發現「全險」竟然不夠用。為什麼?

因為保險公司承擔的是「合理的賠償責任」,他們有內部的數據庫,只願意賠償一般行情的修車費或代步費 。但對方車主可能不這麼想,為了拿到這筆額外的錢,對方可能會採取「以刑逼民」的策略:提告過失傷害,利用刑事訴訟的壓力(背上前科的恐懼),迫使你自掏腰包補足保險公司不願賠償的差額 。

這就是為什麼在全險之外,駕駛人仍需要懂得談判策略,或考慮尋求律師協助,在保險公司與對方的漫天喊價之間,找到一個停損點 。

談判桌的最佳姿態:「溫柔而堅定」最有效?

除了有單據的財損,車禍中最難談判的往往是「精神慰撫金」。施律師直言,這在法律上沒有公式,甚至有點像「開獎」,高度依賴法官的自由心證 。

-----廣告,請繼續往下閱讀-----

雖然保險公司內部有一套簡單的算法(例如醫療費用的 2 到 5 倍),但到了法院,法官會考量雙方的社會地位、傷勢嚴重程度 。在缺乏標準公式的情況下,正確的「態度」能幫您起到加分效果。

施律師建議,在談判桌上最好的姿態是「溫柔而堅定」。有些人會試圖「扮窮」或「裝兇」,這通常會有反效果。特別是面對看過無數案件的保險理賠員,裝兇只會讓對方心裡想著:「進了法院我保證你一毛都拿不到,準備看你笑話」。

相反地,如果你能客氣地溝通,但手中握有完整的接單紀錄、醫療單據,清楚知道自己的底線與權益,這種「堅定」反而能讓談判對手買單,甚至在證明不足的情況下(如外送員的開學期間收入),更願意採信你的主張 。

車禍不只是一場意外,它是認知、情緒、金錢與法律邏輯的總和 。

在這個交通環境日益複雜的時代,無論你是為了生計奔波的職業駕駛,還是天天上路的通勤族,光靠保險或許已經不夠。大部分的車禍其實都是小案子,可能只是賠償 2000 元的輕微擦撞,或是責任不明的糾紛。為了這點錢,要花幾萬塊請律師打官司絕對「不划算」。但當事人往往會因為資訊落差,恐懼於「會不會被告肇逃?」、「會不會留案底?」、「賠償多少才合理?」而整夜睡不著覺 。

-----廣告,請繼續往下閱讀-----

PAMO看準了這個「焦慮商機」, 推出了一種顛覆傳統的解決方案——「年費 1200 元的訂閱制法律服務 」。

這就像是「法律界的 Netflix」或「汽車強制險」的概念。PAMO 的核心邏輯不是「代打」,而是「賦能」。不同於傳統律師收費高昂,PAMO 提倡的是「大腦武裝」,當車禍發生時,線上律師團提供策略,教你怎麼做筆錄、怎麼蒐證、怎麼判斷對方開價合不合理等。

施律師表示,他們的目標是讓客戶在面對不確定的風險時,背後有個軍師,能安心地睡個好覺 。平時保留好收入證明、發生事故時懂得不亂說話、與各方談判時掌握對應策略 。

平時保留好收入證明、發生事故時懂得不亂說話、與各方談判時掌握對應策略 。 / 圖片來源: Nano Banana

從違停的陷阱到訂閱制的解方,我們正處於交通與法律的轉型期。未來,挑戰將更加嚴峻。

-----廣告,請繼續往下閱讀-----

當 AI 與自駕車(Level 4/5)真正上路,一旦發生事故,責任主體將從「駕駛人」轉向「車廠」或「演算法系統」 。屆時,誰該負責?怎麼舉證?

但在那天來臨之前,面對馬路上的豪車、零工騎士與法律陷阱,你選擇相信運氣,還是相信策略? 先「武裝好自己的大腦」,或許才是現代駕駛人最明智的保險。

PAMO車禍線上律師官網:https://pse.is/8juv6k 

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

1

3
0

文字

分享

1
3
0
數據塑造生活與社會,讓人既放心但又不安?——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/28 ・2760字 ・閱讀時間約 5 分鐘

數位世界已經改變了我們日常生活的體驗,一個人從早到晚都會接受到大量數據,受益於大量數據,也貢獻大量數據。這些數據龐大的程度,和消化資訊的方式已經太過繁多,人類心智根本無法處理。

與數位科技建立夥伴關係

所以人會本能地或潛意識地倚賴軟體來處理、組織、篩選出必要或有用的資訊,也就是根據用戶過去的偏好或目前的流行,來挑選要瀏覽的新項目、要看的電影、要播放的音樂。自動策劃的體驗很輕鬆容易,又能讓人滿足,人們只會在沒有自動化服務,例如閱讀別人臉書塗鴉牆上的貼文,或是用別人的網飛帳號看電影時,才會注意到這服務的存在。

有人工智慧協助的網路平臺加速整合,並加深了個人與數位科技間的連結。人工智慧經過設計和訓練,能直覺地解決人類的問題、掌握人類的目標,原本只有人類心智才能管理的各種選擇,現在能由網路平臺來引導、詮釋和記錄(儘管效率比較差)。

日常生活中很少察覺到對自動策劃的依賴。圖/Pexels

網路平臺收集資訊和體驗來完成這些任務,任何一個人的大腦在壽命期限內都不可能容納如此大量的資訊和體驗,所以網路平臺能產出看起來非常恰當的答案和建議。例如,採購員不管再怎麼投入工作,在挑選冬季長靴的時候,也不可能從全國成千上萬的類似商品、近期天氣預測、季節因素、回顧過去的搜尋記錄、調查物流模式之後,才決定最佳的採購項目,但人工智慧可以完整評估上述所有因素。

-----廣告,請繼續往下閱讀-----

因此,由人工智慧驅動的網路平臺經常和我們每個人互動,但我們在歷史上從未和其他產品、服務或機器這樣互動過。當我們個人在和人工智慧互動的時候,人工智慧會適應個人用戶的偏好(網際網路瀏覽記錄、搜尋記錄、旅遊史、收入水準、社交連結),開始形成一種隱形的夥伴關係。

個人用戶逐漸依賴這樣的平臺來完成一串功能,但這些功能過去可能由郵政、百貨公司,或是接待禮賓、懺悔自白的人和朋友,或是企業、政府或其他人類一起來完成。

網路平臺和用戶之間是既親密又遠距的聯繫。圖/Envato Elements

個人、網路平臺和平臺用戶之間的關係,是一種親密關係與遠距聯繫的新穎組合。人工智慧網路平臺審查大量的用戶數據,其中大部分是個人數據(如位置、聯絡資訊、朋友圈、同事圈、金融與健康資訊);網路會把人工智慧當成嚮導,或讓人工智慧來安排個人化體驗。

人工智慧如此精準、正確,是因為人工智慧有能力可以根據數億段類似的關係,以及上兆次空間(用戶群的地理範圍)與時間(集合了過去的使用)的互動來回顧和反應。網路平臺用戶與人工智慧形成了緊密的互動,並互相學習。

-----廣告,請繼續往下閱讀-----

網路平臺的人工智慧使用邏輯,在很多方面對人類來說都難以理解。例如,運用人工智慧的網路平臺在評估圖片、貼文或搜尋時,人類可能無法明確地理解人工智慧會在特定情境下如何運作。谷歌的工程師知道他們的搜尋功能若有人工智慧,就會有清楚的搜尋結果;若沒有人工智慧,搜尋結果就不會那麼清楚,但工程師沒辦法解釋為什麼某些結果的排序比較高。

要評鑑人工智慧的優劣,看的是結果實用不實用,不是看過程。這代表我們的輕重緩急已經和早期不一樣了,以前每個機械的步驟或思考的過程都會由人類來體驗(想法、對話、管理流程),或讓人類可以暫停、檢查、重複。

人工智慧陪伴現代人的生活

例如,在許多工業化地區,旅行的過程已經不需要「找方向」了。以前這過程需要人力,要先打電話給我們要拜訪的對象,查看紙本地圖,然後常常在加油站或便利商店停下來,確認我們的方向對不對。現在,透過手機應用程式,旅行的過程可以更有效率。

透過導航,為旅途帶來不少便利。圖/Pexels

這些應用程式不但可以根據他們「所知」的交通記錄來評估可能的路線與每條路線所花費的時間,還可以考量到當天的交通事故、可能造成延誤的特殊狀況(駕駛過程中的延誤)和其他跡象(其他用戶的搜尋),來避免和別人走同一條路。

-----廣告,請繼續往下閱讀-----

從看地圖到線上導航,這轉變如此方便,很少人會停下來想想這種變化有多大的革命性意義,又會帶來什麼後果。個人用戶、社會與網路平臺和營運商建立了新關係,並信任網路平臺與演算法可以產生準確的結果,獲得了便利,成為數據集的一部分,而這數據集又在持續進化(至少會在大家使用應用程式的時候追蹤個人的位置)。

在某種意義上,使用這種服務的人並不是獨自駕駛,而是系統的一部分。在系統內,人類和機器智慧一起協作,引導一群人透過各自的路線聚集在一起。

持續陪伴型的人工智慧會愈來愈普及,醫療保健、物流、零售、金融、通訊、媒體、運輸和娛樂等產業持續發展,我們的日常生活體驗透過網路平臺一直在變化。

網路平台協助我們完成各種事項。圖/Pexels

當用戶找人工智慧網路平臺來協助他們完成任務的時候,因為網路平臺可以收集、提煉資訊,所以用戶得到了益處,上個世代完全沒有這種經驗。這種平臺追求新穎模式的規模、力量、功能,讓個人用戶獲得前所未有的便利和能力;同時,這些用戶進入一種前所未有的人機對話中。

-----廣告,請繼續往下閱讀-----

運用人工智慧的網路平臺有能力可以用我們無法清楚理解,甚至無法明確定義或表示的方式來形塑人類的活動,這裡有一個很重要的問題:這種人工智慧的目標功能是什麼?由誰設計?在哪些監管參數範圍裡?

類似問題的答案會繼續塑造未來的生活與未來的社會:誰在操作?誰在定義這些流程的限制?這些人對於社會規範和制度會有什麼影響?有人可以存取人工智慧的感知嗎?有的話,這人是誰?

如果沒有人類可以完全理解或查看數據,或檢視每個步驟,也就是說假設人類的角色只負責設計、監控和設定人工智慧的參數,那麼對人工智慧的限制應該要讓我們放心?還是讓我們不安?還是既放心又不安?

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
-----廣告,請繼續往下閱讀-----
所有討論 1
聯經出版_96
27 篇文章 ・ 20 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。

0

2
1

文字

分享

0
2
1
AI 的 3 種學習形式:不同的目標功能,不同的訓練方式——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/27 ・2368字 ・閱讀時間約 4 分鐘

搭配不同的任務,人工智慧的應用方式也不一樣,所以開發人員用來創造人工智慧的科技也不一樣。這是部署機器學習時最基礎的挑戰:不同的目標和功能需要不同的訓練技巧。

機器學習最基礎的挑戰:不同目標和功能需配合不同訓練技巧。圖/Pexels

不過,結合不同的機器學習法,尤其是應用神經網路,就出現不同的可能性,例如發現癌症的人工智慧。

機器的 3 種學習形式

在我們撰寫本章的時候,機器學習的三種形式:受監督式學習、不受監督式學習和增強式學習,都值得注意。

受監督式學習催生了發現海利黴素的人工智慧。總結來說,麻省理工學院的研究人員想要找出有潛力的新抗生素,在資料庫裡放入二千種分子來訓練模型,輸入項目是分子結構,輸出項目是抑菌效果;研究人員把分子結構展示給人工智慧看,每一種結構都標示抗菌力,然後讓人工智慧去評估新化合物的抗菌效果。

-----廣告,請繼續往下閱讀-----

這種技巧稱為受監督式學習,因為人工智慧開發人員利用包含了輸入範例(即分子結構)的資料集,在這裡面,每一筆數據都單獨標示研究人員想要的輸出項目或結果(即抗菌力)。

開發人員已經把受監督式學習的技巧應用於許多處,例如創造人工智慧來辨識影像。為了這項任務,人工智慧先拿已經標示好的圖像來訓練,學著把圖像和標籤,例如把貓的照片和「貓」的標籤,聯想在一起,人工智慧把圖片和標籤的關係編碼之後,就可以正確地辨識新圖片。

貓貓!圖/Pexels

因此,當開發人員有一個資料集,其中每個輸入項目都有期望的輸出項目,受監督式學習就能有效地創造出模型,根據新的輸入項目來預測輸出項目。

不過,當開發人員只有大量資料,沒有建立關係的時候,他們可以透過不受監督式學習來找出可能有用的見解。因為網際網路與資料數位化,比過去更容易取得資料,現在企業、政府和研究人員都被淹沒在資料中。

-----廣告,請繼續往下閱讀-----

行銷人員擁有更多顧客資訊、生物學家擁有更多資料、銀行家有更多金融交易記錄。當行銷人員想要找出客戶群,或詐騙分析師想要在大量交易中找到不一致的資訊,不受監督式學習就可以讓人工智慧在不確定結果的資訊中找出異常模式。

這時,訓練資料只有輸入項目,然後工程師會要求學習演算法根據相似性來設定權重,將資料分類。舉例來說,像網飛(Netflix)這樣的影音串流服務,就是利用演算法來找出哪些觀眾群有類似的觀影習慣,才好向他們推薦更多節目;但要優化、微調這樣的演算法會很複雜:因為多數人有好幾種興趣,會同時出現在很多組別裡。

影音串流服務利用演算法,進而推薦使用者可能喜歡的節目。圖/Pexels

經過不受監督式學習法訓練的人工智慧,可以找出人類或許會錯過的模式,因為這些模式很微妙、數據規模又龐大。因為這樣的人工智慧在訓練時沒有明定什麼結果才「適當」,所以可以產生讓人驚豔的創新見解,這其實和人類的自我教育沒什麼不同——無論是人類自學或是人工智慧,都會產生稀奇古怪、荒謬無理的結果。

不管是受監督式學習法或不受監督式學習法,人工智慧都是運用資料來執行任務,以發現新趨勢、識別影像或做出預測。在資料分析之外,研究人員想要訓練人工智慧在多變的環境裡操作,第三種機器學習法就誕生了。

-----廣告,請繼續往下閱讀-----

增強式學習:需要理想的模擬情境與回饋機制

若用增強式學習,人工智慧就不是被動地識別資料間的關聯,而是在受控的環境裡具備「能動性」,觀察並記錄自己的行動會有什麼反應;通常這都是模擬的過程, 把複雜的真實世界給簡化了,在生產線上準確地模擬機器人比較容易,在擁擠的城市街道上模擬就困難得多了。

但即使是在模擬且簡化的環境裡,如西洋棋比賽,每一步都還是會引發一連串不同的機會與風險。因此,引導人工智慧在人造環境裡訓練自己,還不足以產生最佳表現,這訓練過程還需要回饋。

西洋棋比賽中的每一步會引發一連串機會與風險。圖/Pexels

提供反饋和獎勵,可以讓人工智慧知道這個方法成功了。沒有人類可以有效勝任這個角色:人工智慧因為在數位處理器上運作,所以可以在數小時或數日之內就訓練自己幾百次、幾千次或幾十億次,人類提供的回饋相比之下根本不切實際。

軟體工程師將這種回饋功能自動化,謹慎精確地說明這些功能要如何操作,以及這些功能的本質是要模擬現實。理想情況下,模擬器會提供擬真的環境,回饋功能則會讓人工智慧做出有效的決定。

-----廣告,請繼續往下閱讀-----

阿爾法元的模擬器就很簡單粗暴:對戰。阿爾法元為了評估自己的表現,運用獎勵功能,根據每一步創造的機會來評分。

增強式學習需要人類參與來創造人工智慧的訓練環境(儘管在訓練過程中不直接提供回饋):人類要定義模擬情境和回饋功能,人工智慧會在這基礎上自我訓練。為產生有意義的結果,謹慎明確地定義模擬情境和回饋功能至關重要。

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
聯經出版_96
27 篇文章 ・ 20 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。