0

0
0

文字

分享

0
0
0

大數據專題導言:我們真的認識 Big Data 的「科學」嗎?

陳妤寧
・2016/05/24 ・1400字 ・閱讀時間約 2 分鐘 ・SR值 594 ・九年級

文 / 陳妤寧

Big Data's definition illustrated with texts
Big Data’s definition illustrated with texts (Author: Camelia.boban)

關於 Big Data(大數據)能夠如何在網路世代改變人們的生活,只要上網搜尋即可查閱到國內外大量的文章。不過,究竟神奇的 Big Data 要如何運作?和十多年前的 Data Mining(資料採礦)又有何異曲同工?除了資工之外,數學、統計等其他學門在資料科學中分別扮演什麼角色?在股市、在民調、在醫療等形形色色的領域之中,是否已經是能夠被成熟運用的產品了呢?

本次大數據專題要揭開大數據科學的面紗,專訪五位精通於不同資料科學領域的專家,讓我們即使從外行麻瓜的角度,也能了解大數據背後能夠如何運作的科學原理。

在展開資料分析之前,「資料」真的能夠完整呈現「真實世界」的全貌嗎?我們想問的問題,都能從手上的資料中得到解答嗎?本專題專訪了社會企業DSP智庫驅動的知識長謝宗震,從統計人的角度,細細討論了在分析資料前應該如何「思考」資料,以及統計人面對大數據時代的非結構化資料,應如何迎接挑戰。→ 資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震

-----廣告,請繼續往下閱讀-----

台大資工系的林守德副教授,則從機器學習的角度出發,從社群網站的個人化推薦、地圖 APP 提供的最佳路徑等案例分享,主張未來時代的機器人,將跳過「報表」階段,直接為人類做出最佳的決策。而人類不應為此恐慌,而是進化到下一階段、找出更多電腦所無法辦到的事情。→ 運用海量資料讓機器「自學」,電腦將成為更好的決策代理人-專訪台大資工教授林守德

談到社群網站帶來的海量資料,不可忽略語意分析的關鍵地位。語意分析讓選前的民意調查能夠更廣泛的涵蓋到各種更「非正式」的網路意見,也不再侷限於以數字獨霸的數據資料,更深入拆解文字背後隱含的正面或負面情緒意涵,甚至能夠藉此更快掌握並預測事件的發生。創辦意藍科技的楊立偉董事長,深入介紹了語意分析的觀念、應用和挑戰。→ 不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉

大數據的本質在於資料,東吳大學的助理教授吳牧恩認為,從小資料到大資料,都是數學這個學門能夠積極介入、加以演算和預測的。電腦硬體的運算速度,必須加上演算法的加持,才能提升解題效率、降低運算的複雜度,尋求出最佳解。→ 從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩

最後,在分析結果的可靠問題上,是典通科技的總經理楊雅惠著墨最深的。為了優化分析模型,深入研究大眾在網路上發表意見的行為模式可以做出更好的判斷,讓「大」數據獲得精緻化的可能。而在醫療資料的分析上,她則認為除了常見的隱私問題之外,也存在著多元採集設備之間缺乏共同標準的挑戰。→ 提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠

-----廣告,請繼續往下閱讀-----

數據和資料從古到今都是人類尋求解答的重要材料,而網路時代的資料來源變多也變雜,不論是語意分析、機器學習、演算法、統計建模,眾多方法都試圖解決更多過去人類仰賴臆測萊處理的問題。看完這五位不同背景和專長的專家分享了他們的見解後,對於所謂大數據的定義和視野,也隨之更為寬廣了。

(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)

責任編輯:鄭國威

-----廣告,請繼續往下閱讀-----
文章難易度
陳妤寧
38 篇文章 ・ 1 位粉絲
熱愛將知識拆解為簡單易懂的文字,喜歡把一件事的正反觀點都挖出來思考,希望用社會科學的視角創造更宏觀的視野。

0

0
0

文字

分享

0
0
0
從奈米微塵到化學氣體, HEPA 與活性碳如何聯手打造純淨空氣?
鳥苷三磷酸 (PanSci Promo)_96
・2026/04/17 ・4433字 ・閱讀時間約 9 分鐘

本文由 Amway 委託,泛科學企劃執行。

很多人可能沒想到,無論是家用的空氣清淨機,還是造價動輒百億的頂尖晶圓廠,它們對抗污染的核心武器並非什麼複雜的雷射防護罩,而是一片外觀像紙一樣的 HEPA 濾網
在半導體產業的無塵室中,「乾淨」的定義極其殘酷:一粒肉眼看不見的灰塵,就足以讓造價數百萬美元的晶圓直接報廢 / 圖片來源:envato

到底怎樣才算是「乾淨」?這不是什麼靈魂拷問,而是一個價值上億的商業命題。

在半導體產業的無塵室中,「乾淨」的定義極其殘酷:一粒肉眼看不見的灰塵,就足以讓造價數百萬美元的晶圓直接報廢。空氣品質的好壞,甚至能成為台積電(TSMC)決定是否在當地設廠的關鍵性指標。回到你的家中,雖然不需要生產精密晶片,但我們呼吸系統中的肺泡同樣精密,卻長期暴露在充滿 PM2.5、病毒以及各種揮發性氣體的環境中。為了守護健康,你可能還要付費購買「乾淨的空氣」來用。

因此,空氣議題早已超越單純的環保範疇,成為同時影響國家經濟與個人健康的重要問題。

-----廣告,請繼續往下閱讀-----

很多人可能沒想到,無論是家用的空氣清淨機,還是造價動輒百億的頂尖晶圓廠,它們對抗污染的核心武器並非什麼複雜的雷射防護罩,而是同一件看起來平凡無奇的東西:一片外觀像紙一樣的 HEPA 濾網。但你真的相信,就憑這層厚度不到幾公分的板子,能擋住那些足以毀滅精密晶片、滲透人體細胞的「奈米級刺客」嗎?

這片大家都聽過的 HEPA 濾網,裡面到底是什麼?

首先,我們必須打破一個直覺上的誤解:HEPA 濾網(High Efficiency Particulate Air filter)在本質上其實並不是一張「網」。

細懸浮微粒 PM2.5,是指粒徑在 2.5 微米以下的污染物,它們能穿過呼吸道直達肺泡,並穿過血管引發全身性發炎。但這只是基本,在工廠與汽車尾氣中,還存在粒徑僅有 1 微米的 PM1,甚至是小於 0.1 微米的「超細懸浮微粒」(UFP,即 PM0.1)。 UFP 不僅能輕易進入血液,甚至能繞過血腦屏障(BBB),進入大腦與胎盤,其破壞力十分可怕。

如果 HEPA 濾網像水槽濾網或麵粉篩一樣,單靠孔目大小來「過濾」粒子,那麼為了攔截奈米微粒,濾網的孔目只能無限縮小到幾乎不透氣的程度。更別說在台積電或 Intel 的製程工程師眼裡,一般人認為的「乾淨」,在工程師眼裡簡直像沙塵暴一樣。對於線寬僅有 2 奈米3 奈米(相當於頭髮直徑萬分之一)的晶片而言,空氣中一顆微小的塵埃,就是一顆足以毀滅世界的隕石。

-----廣告,請繼續往下閱讀-----

因此,傳統的過濾思維並非治本之道,我們需要的是原理截然不同的過濾方案。這套技術的雛形,最早可追溯至二戰時期的「曼哈頓計畫」。

HEPA 的前身,誕生於曼哈頓計畫!

1940 年代,製造濃縮鈾是發展原子彈的關鍵。然而,若將排氣直接排向大氣,會導致致命的放射性微粒擴散。負責解決這問題的是 1932 年諾貝爾化學獎得主歐文·朗繆爾(Irving Langmuir),他是薄膜和表面吸附現象的專家。他開發了「絕對過濾器」(Absolute Filter),其內部並非有孔的篩網,而是石綿纖維。

有趣的來了,如果把過濾器放到顯微鏡下,你會發現纖維之間的空隙,其實比某些被攔截的粒子還要大。那為什麼粒子穿不過去呢?這是因為在奈米尺度下,物理規則與宏觀世界完全不同。極微小的粒子在空氣中飛行時,並非走直線,而是會受到空氣分子撞擊,而產生「布朗運動」(Brownian Motion),像個醉漢一樣東倒西歪。

當粒子通過由緻密纖維構成的混亂迷宮時,布朗運動會迫使它們不斷轉彎、移動,最終撞擊到帶有靜電的纖維上。這時,靜電的吸附力會讓纖維就像蜘蛛網般死死黏住微粒。那些狂亂移動的奈米刺客,就這樣被永久禁錮迷宮中。

-----廣告,請繼續往下閱讀-----

現在最常見的 HEPA 材料,是硼矽酸鹽玻璃纖維。

現代 HEPA 濾網最常見的核心材料為硼矽酸鹽玻璃纖維。這些玻璃纖維的直徑通常介於 0.5 至 2 微米之間,它們在濾網內隨機交織,像是一座茂密「黑森林」。微粒進入這片森林後,並非僅僅面對一層薄紙,而是得穿越一個具有厚度且排列混亂的纖維層,微粒極有可能在布朗運動的影響下撞擊並黏附在某根玻璃絲上。

除此之外,HEPA 濾網在外觀上還有一個極具辨識度的特徵,那就是像手風琴般的摺紙結構。濾材會被反覆摺疊、摺成手風琴的形狀,中間則用鋁箔或特殊的防潮紙進行結構支撐,目的是增加表面積。這不僅為了捕獲更多微粒,而是要「降低過濾風速」。這聽起來可能有點反直覺:過濾不是越快越好嗎?

其實,這與物理學中的流速控制有關。想像一條水管,如果你捏住出口,水流會變得湍急;若將出口放開並擴大,雖然總出水量不變,但出水處的流速會變得緩慢。對於 HEPA 濾網而言,當表面積越大,單位面積所需承載的空氣量就越少,空氣穿透濾網的速度也就越低。

低流速代表微粒停留在濾網內的時間也更久,增加被捕捉的機會。此外,越大的表面積也為 HEPA 濾網帶來了高「容塵量」,延長了使用壽命,這正是它能夠稱霸空氣清淨領域多年的主因。

-----廣告,請繼續往下閱讀-----

然而,即便都叫做 HEPA 高效率空氣微粒子過濾網 (High Efficiency Particulate Air filter),但每個 HEPA 的成分與結構還是會不一樣。例如 安麗逸新空氣清淨機 SKY ,其標榜「可過濾粒徑最小至 0.0024 微米」的污染物,去除率高達 99.99%。

0.0024 微米是什麼概念?塵蟎、花粉、皮屑或黴菌孢子,大小約在 2 至 200 微米;細懸浮微粒  PM2.5 大小約 2.5 微米,細菌也大概這麼大。最小的其實是粒徑小於 0.1 微米的「超細懸浮微粒」,大多數的病毒(如流感、新冠病毒)都落在此區間。對安麗逸新 的HEPA濾網來說,基本上通通都是可被攔截的榜上名單。

在過敏防護上,它更獲得英國過敏協會(Allergy UK)認證,能有效處理 19 大類、102 種過敏原,濾除空氣中超過 300 種氣態與固態污染物。

同樣的過濾邏輯一旦進入半導體無塵室,就必須換一條更為嚴苛的技術路線。因為硼矽酸鹽玻璃纖維對晶圓來說有個致命傷,就是「硼 (Boron)」 / 圖片授權:Shutterstock

然而,同樣的過濾邏輯一旦進入半導體無塵室,就必須換一條更為嚴苛的技術路線。因為硼矽酸鹽玻璃纖維對晶圓來說有個致命傷,就是「硼 (Boron)」。

在半導體製程中,硼是常見的 P 型摻雜物,用來精準改變矽晶圓的電性。如果濾網有任何微小的破損、老化或化學侵蝕,進而釋放出極微量的硼離子,就可能直接污染晶圓,改變其導電特性,導致晶片報廢。

此外,無塵室要求的是比 HEPA 更極致的 ULPA(超低穿透率空氣濾網) 等級的潔淨度。ULPA 的標準通常要求對 0.12 微米 的粒子達到 99.999% 甚至 99.9999% 的超高攔截率。在奈米級的競爭中,任何多穿透的一顆微塵,都代表著一筆不小的經濟損失。

-----廣告,請繼續往下閱讀-----

為了解決「硼」的問題並追求極限的過濾效率,材料學家搬出了塑膠界的王者,PTFE 也鐵氟龍。鐵氟龍不僅耐酸鹼、耐腐蝕,還能透過拉伸製成直徑僅 0.05 至 0.1 微米 的極細纖維,其細度遠勝玻璃纖維。雖然 PTFE 耐化學腐蝕,但它既昂貴且物理上也很脆弱,安裝時若不小心稍微觸碰,數萬元的濾網就可能報銷。因此,你只會在晶圓廠而非一般家庭環境看到它。

即便如此,在空氣濾淨系統中,還有一樣是無塵室和你家空氣清淨器上面都有的另一張濾網,就是活性碳濾網。

活性碳如何從物理攔截跨越到分子吸附?

好不容易將微塵擋在門外時,危機卻還沒有解除。因為空氣中還隱藏著另一類更難纏的大魔王:AMC(氣態分子污染物)

HEPA 或 ULPA 這類物理濾網雖然能攔截固體微粒,但面對氣態分子時,就像是用網球拍想撈起水一樣徒勞。這些氣態分子如同「幽靈」一般,能輕易穿過物理濾網的縫隙,其中包括氮氧化物、二氧化硫,以及來自人體的氨氣與各種揮發性有機物(VOCs)。

-----廣告,請繼續往下閱讀-----

為了對付這些幽靈,我們必須在物理防線之外,加裝一道「化學濾網」。

這道防線的核心就是我們熟知的活性碳。但這與烤肉用的木炭不同,這裡使用的是經過特殊改造的「浸漬處理(Impregnation)」活性碳。材料科學家會根據敵人的不同性質,在活性碳上添加不同的化學藥劑:

  • 酸鹼中和:對付氮氧化物、二氧化硫等酸性氣體,會在活性碳上添加碳酸鉀、氫氧化鉀等鹼性藥劑,透過酸鹼中和反應將有害氣體轉化為固體鹽類。反之,如果添加了磷酸、檸檬酸等酸性藥劑,就能中和空氣中的氨氣等鹼類。
  • 物理吸附與凡德瓦力:對於最麻煩的有機揮發物(VOCs,如甲醛、甲苯),因為它們不具酸鹼性,科學家會精密調控活性碳的孔徑大小,利用龐大的「比表面積」與分子間的吸引力(凡德瓦力),像海綿吸水般將特定的有機分子牢牢鎖在孔隙中。
活性碳如何從物理攔截跨越到分子吸附? / 圖片來源:Amway

空氣濾淨的終極邏輯:物理與化學防線的雙重合圍

在晶圓廠這種對空氣品質斤斤計較的極端環境,活性碳的運用並非「亂槍打鳥」,而是一場極其精密的對戰策略。

-----廣告,請繼續往下閱讀-----

工程師會根據不同製程區域的空氣分析報告,像玩 RPG 遊戲時根據怪物屬性更換裝備一樣——「打火屬性怪要穿防火裝,打冰屬性則換上防寒裝」。在最關鍵的黃光微影區(Photolithography),晶圓最怕的是人體呼出的氨氣,此時便會配置經過酸性藥劑處理的活性碳進行精準中和;而在蝕刻區(Etching),若偵測到酸性廢氣,則會改用鹼性配方的濾網。這種「對症下藥」的客製化邏輯,是確保晶片良率的唯一準則。

而在你的家中,雖然我們無法像晶圓廠那樣天天進行空氣成分分析,但你的肺部同樣需要這種等級的保護。安麗逸新空氣清淨機 SKY 的設計邏輯,正是將這種工業級的精密防護帶入家庭。它不僅擁有前述的高規 HEPA 濾網,更搭載了獲得美國專利的活性碳氣味濾網。

關於活性碳,科學界有個關鍵指標:「比表面積(Specific Surface Area)」。活性碳的孔隙越多、表面積越大,其吸附能力就越強。逸新氣味濾網選用高品質椰殼製成的活性碳,並經過高溫與蒸氣的特殊活化處理,打造出多孔且極致高密度的結構。

這片濾網內的活性碳配重達 1,020 克,但其展開後的總吸附表面積竟然高達 1,260,000 平方公尺——這是一個令人難以想像的數字,相當於 10.5 個台北大巨蛋 的面積。這種超高的比表面積,是市面上常見濾網的百倍之多。更重要的是,它還添加了雙重觸媒技術,能特別針對甲醛、戴奧辛、臭氧以及各種細微的異味分子進行捕捉。這道專利塗層防線,能將你從裝潢家具散發的有機揮發氣體,或是路邊繁忙車流的廢氣中拯救出來,成為全家人的專屬空氣守護者。

總結來說,無論是造價百億的半導體無塵室,還是守護家人的空氣清淨機,其背後的科學邏輯如出一轍:「物理濾網攔截微粒,化學濾網捕捉氣體」。只有當這兩道防線同時運作,空氣才稱得上是真正的「乾淨」。

進一步了解商品:https://shop.amway.com.tw/products/2071?navigationType=brand&

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
246 篇文章 ・ 319 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

1

3
0

文字

分享

1
3
0
數據塑造生活與社會,讓人既放心但又不安?——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/28 ・2760字 ・閱讀時間約 5 分鐘

數位世界已經改變了我們日常生活的體驗,一個人從早到晚都會接受到大量數據,受益於大量數據,也貢獻大量數據。這些數據龐大的程度,和消化資訊的方式已經太過繁多,人類心智根本無法處理。

與數位科技建立夥伴關係

所以人會本能地或潛意識地倚賴軟體來處理、組織、篩選出必要或有用的資訊,也就是根據用戶過去的偏好或目前的流行,來挑選要瀏覽的新項目、要看的電影、要播放的音樂。自動策劃的體驗很輕鬆容易,又能讓人滿足,人們只會在沒有自動化服務,例如閱讀別人臉書塗鴉牆上的貼文,或是用別人的網飛帳號看電影時,才會注意到這服務的存在。

有人工智慧協助的網路平臺加速整合,並加深了個人與數位科技間的連結。人工智慧經過設計和訓練,能直覺地解決人類的問題、掌握人類的目標,原本只有人類心智才能管理的各種選擇,現在能由網路平臺來引導、詮釋和記錄(儘管效率比較差)。

日常生活中很少察覺到對自動策劃的依賴。圖/Pexels

網路平臺收集資訊和體驗來完成這些任務,任何一個人的大腦在壽命期限內都不可能容納如此大量的資訊和體驗,所以網路平臺能產出看起來非常恰當的答案和建議。例如,採購員不管再怎麼投入工作,在挑選冬季長靴的時候,也不可能從全國成千上萬的類似商品、近期天氣預測、季節因素、回顧過去的搜尋記錄、調查物流模式之後,才決定最佳的採購項目,但人工智慧可以完整評估上述所有因素。

-----廣告,請繼續往下閱讀-----

因此,由人工智慧驅動的網路平臺經常和我們每個人互動,但我們在歷史上從未和其他產品、服務或機器這樣互動過。當我們個人在和人工智慧互動的時候,人工智慧會適應個人用戶的偏好(網際網路瀏覽記錄、搜尋記錄、旅遊史、收入水準、社交連結),開始形成一種隱形的夥伴關係。

個人用戶逐漸依賴這樣的平臺來完成一串功能,但這些功能過去可能由郵政、百貨公司,或是接待禮賓、懺悔自白的人和朋友,或是企業、政府或其他人類一起來完成。

網路平臺和用戶之間是既親密又遠距的聯繫。圖/Envato Elements

個人、網路平臺和平臺用戶之間的關係,是一種親密關係與遠距聯繫的新穎組合。人工智慧網路平臺審查大量的用戶數據,其中大部分是個人數據(如位置、聯絡資訊、朋友圈、同事圈、金融與健康資訊);網路會把人工智慧當成嚮導,或讓人工智慧來安排個人化體驗。

人工智慧如此精準、正確,是因為人工智慧有能力可以根據數億段類似的關係,以及上兆次空間(用戶群的地理範圍)與時間(集合了過去的使用)的互動來回顧和反應。網路平臺用戶與人工智慧形成了緊密的互動,並互相學習。

-----廣告,請繼續往下閱讀-----

網路平臺的人工智慧使用邏輯,在很多方面對人類來說都難以理解。例如,運用人工智慧的網路平臺在評估圖片、貼文或搜尋時,人類可能無法明確地理解人工智慧會在特定情境下如何運作。谷歌的工程師知道他們的搜尋功能若有人工智慧,就會有清楚的搜尋結果;若沒有人工智慧,搜尋結果就不會那麼清楚,但工程師沒辦法解釋為什麼某些結果的排序比較高。

要評鑑人工智慧的優劣,看的是結果實用不實用,不是看過程。這代表我們的輕重緩急已經和早期不一樣了,以前每個機械的步驟或思考的過程都會由人類來體驗(想法、對話、管理流程),或讓人類可以暫停、檢查、重複。

人工智慧陪伴現代人的生活

例如,在許多工業化地區,旅行的過程已經不需要「找方向」了。以前這過程需要人力,要先打電話給我們要拜訪的對象,查看紙本地圖,然後常常在加油站或便利商店停下來,確認我們的方向對不對。現在,透過手機應用程式,旅行的過程可以更有效率。

透過導航,為旅途帶來不少便利。圖/Pexels

這些應用程式不但可以根據他們「所知」的交通記錄來評估可能的路線與每條路線所花費的時間,還可以考量到當天的交通事故、可能造成延誤的特殊狀況(駕駛過程中的延誤)和其他跡象(其他用戶的搜尋),來避免和別人走同一條路。

-----廣告,請繼續往下閱讀-----

從看地圖到線上導航,這轉變如此方便,很少人會停下來想想這種變化有多大的革命性意義,又會帶來什麼後果。個人用戶、社會與網路平臺和營運商建立了新關係,並信任網路平臺與演算法可以產生準確的結果,獲得了便利,成為數據集的一部分,而這數據集又在持續進化(至少會在大家使用應用程式的時候追蹤個人的位置)。

在某種意義上,使用這種服務的人並不是獨自駕駛,而是系統的一部分。在系統內,人類和機器智慧一起協作,引導一群人透過各自的路線聚集在一起。

持續陪伴型的人工智慧會愈來愈普及,醫療保健、物流、零售、金融、通訊、媒體、運輸和娛樂等產業持續發展,我們的日常生活體驗透過網路平臺一直在變化。

網路平台協助我們完成各種事項。圖/Pexels

當用戶找人工智慧網路平臺來協助他們完成任務的時候,因為網路平臺可以收集、提煉資訊,所以用戶得到了益處,上個世代完全沒有這種經驗。這種平臺追求新穎模式的規模、力量、功能,讓個人用戶獲得前所未有的便利和能力;同時,這些用戶進入一種前所未有的人機對話中。

-----廣告,請繼續往下閱讀-----

運用人工智慧的網路平臺有能力可以用我們無法清楚理解,甚至無法明確定義或表示的方式來形塑人類的活動,這裡有一個很重要的問題:這種人工智慧的目標功能是什麼?由誰設計?在哪些監管參數範圍裡?

類似問題的答案會繼續塑造未來的生活與未來的社會:誰在操作?誰在定義這些流程的限制?這些人對於社會規範和制度會有什麼影響?有人可以存取人工智慧的感知嗎?有的話,這人是誰?

如果沒有人類可以完全理解或查看數據,或檢視每個步驟,也就是說假設人類的角色只負責設計、監控和設定人工智慧的參數,那麼對人工智慧的限制應該要讓我們放心?還是讓我們不安?還是既放心又不安?

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
-----廣告,請繼續往下閱讀-----
所有討論 1
聯經出版_96
27 篇文章 ・ 20 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。

0

2
1

文字

分享

0
2
1
AI 的 3 種學習形式:不同的目標功能,不同的訓練方式——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/27 ・2368字 ・閱讀時間約 4 分鐘

搭配不同的任務,人工智慧的應用方式也不一樣,所以開發人員用來創造人工智慧的科技也不一樣。這是部署機器學習時最基礎的挑戰:不同的目標和功能需要不同的訓練技巧。

機器學習最基礎的挑戰:不同目標和功能需配合不同訓練技巧。圖/Pexels

不過,結合不同的機器學習法,尤其是應用神經網路,就出現不同的可能性,例如發現癌症的人工智慧。

機器的 3 種學習形式

在我們撰寫本章的時候,機器學習的三種形式:受監督式學習、不受監督式學習和增強式學習,都值得注意。

受監督式學習催生了發現海利黴素的人工智慧。總結來說,麻省理工學院的研究人員想要找出有潛力的新抗生素,在資料庫裡放入二千種分子來訓練模型,輸入項目是分子結構,輸出項目是抑菌效果;研究人員把分子結構展示給人工智慧看,每一種結構都標示抗菌力,然後讓人工智慧去評估新化合物的抗菌效果。

-----廣告,請繼續往下閱讀-----

這種技巧稱為受監督式學習,因為人工智慧開發人員利用包含了輸入範例(即分子結構)的資料集,在這裡面,每一筆數據都單獨標示研究人員想要的輸出項目或結果(即抗菌力)。

開發人員已經把受監督式學習的技巧應用於許多處,例如創造人工智慧來辨識影像。為了這項任務,人工智慧先拿已經標示好的圖像來訓練,學著把圖像和標籤,例如把貓的照片和「貓」的標籤,聯想在一起,人工智慧把圖片和標籤的關係編碼之後,就可以正確地辨識新圖片。

貓貓!圖/Pexels

因此,當開發人員有一個資料集,其中每個輸入項目都有期望的輸出項目,受監督式學習就能有效地創造出模型,根據新的輸入項目來預測輸出項目。

不過,當開發人員只有大量資料,沒有建立關係的時候,他們可以透過不受監督式學習來找出可能有用的見解。因為網際網路與資料數位化,比過去更容易取得資料,現在企業、政府和研究人員都被淹沒在資料中。

-----廣告,請繼續往下閱讀-----

行銷人員擁有更多顧客資訊、生物學家擁有更多資料、銀行家有更多金融交易記錄。當行銷人員想要找出客戶群,或詐騙分析師想要在大量交易中找到不一致的資訊,不受監督式學習就可以讓人工智慧在不確定結果的資訊中找出異常模式。

這時,訓練資料只有輸入項目,然後工程師會要求學習演算法根據相似性來設定權重,將資料分類。舉例來說,像網飛(Netflix)這樣的影音串流服務,就是利用演算法來找出哪些觀眾群有類似的觀影習慣,才好向他們推薦更多節目;但要優化、微調這樣的演算法會很複雜:因為多數人有好幾種興趣,會同時出現在很多組別裡。

影音串流服務利用演算法,進而推薦使用者可能喜歡的節目。圖/Pexels

經過不受監督式學習法訓練的人工智慧,可以找出人類或許會錯過的模式,因為這些模式很微妙、數據規模又龐大。因為這樣的人工智慧在訓練時沒有明定什麼結果才「適當」,所以可以產生讓人驚豔的創新見解,這其實和人類的自我教育沒什麼不同——無論是人類自學或是人工智慧,都會產生稀奇古怪、荒謬無理的結果。

不管是受監督式學習法或不受監督式學習法,人工智慧都是運用資料來執行任務,以發現新趨勢、識別影像或做出預測。在資料分析之外,研究人員想要訓練人工智慧在多變的環境裡操作,第三種機器學習法就誕生了。

-----廣告,請繼續往下閱讀-----

增強式學習:需要理想的模擬情境與回饋機制

若用增強式學習,人工智慧就不是被動地識別資料間的關聯,而是在受控的環境裡具備「能動性」,觀察並記錄自己的行動會有什麼反應;通常這都是模擬的過程, 把複雜的真實世界給簡化了,在生產線上準確地模擬機器人比較容易,在擁擠的城市街道上模擬就困難得多了。

但即使是在模擬且簡化的環境裡,如西洋棋比賽,每一步都還是會引發一連串不同的機會與風險。因此,引導人工智慧在人造環境裡訓練自己,還不足以產生最佳表現,這訓練過程還需要回饋。

西洋棋比賽中的每一步會引發一連串機會與風險。圖/Pexels

提供反饋和獎勵,可以讓人工智慧知道這個方法成功了。沒有人類可以有效勝任這個角色:人工智慧因為在數位處理器上運作,所以可以在數小時或數日之內就訓練自己幾百次、幾千次或幾十億次,人類提供的回饋相比之下根本不切實際。

軟體工程師將這種回饋功能自動化,謹慎精確地說明這些功能要如何操作,以及這些功能的本質是要模擬現實。理想情況下,模擬器會提供擬真的環境,回饋功能則會讓人工智慧做出有效的決定。

-----廣告,請繼續往下閱讀-----

阿爾法元的模擬器就很簡單粗暴:對戰。阿爾法元為了評估自己的表現,運用獎勵功能,根據每一步創造的機會來評分。

增強式學習需要人類參與來創造人工智慧的訓練環境(儘管在訓練過程中不直接提供回饋):人類要定義模擬情境和回饋功能,人工智慧會在這基礎上自我訓練。為產生有意義的結果,謹慎明確地定義模擬情境和回饋功能至關重要。

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
聯經出版_96
27 篇文章 ・ 20 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。