0

0
0

文字

分享

0
0
0

【Gene思書齋】當演算法成為事實,統治世界就是義務!

Gene Ng_96
・2015/04/22 ・2769字 ・閱讀時間約 5 分鐘 ・SR值 491 ・五年級

B000292835-B71oVsN8w0HL

內容農場總愛用殺人標題來吸引讀者點閱來騙流量和告,據說逼得臉書要改演算法剔除,可是讀了《演算法統治世界》Automate This: How Algorithms Came to Rule Our World,你會發現真的是「 10個統治世界的演算法,接下來的故事讓我震驚了!」、「 10個演算法的秘密全世界被統治了!」、「 我看了3遍都不相信,值得大力分享的秘密,把我的心震醒了… 」、「 30歲以前要懂,改變全人類的超酷演算法,真是太天才了! 」、「 讓專家跌破眼鏡, 統治世界的演算法, 第8個太瘋狂了! 」、「 膽小的人別看,值得學習的演算法,你一定要看第5個! 」、「 影響全世界的演算法,他是怎麼做到的? 」、「 演算法教我的,前所未見的驚人事實,第9個真的很神奇! 」、「 超過6萬人已經發現統治世界的演算法,第2個太重要了! 」、「 3分鐘內看完這統治世界的秘密,第4個太誇張了! 」、「 看完後你會感激我,勁爆的驚險故事,第2個太重要了! 」、「 會讓你大喊WOW,全球禁用的演算法,把所有人都嚇壞了!」……

以上殺人標題來自『內容農場常見之「殺人標題」產生器 』  XD   會想用那些殺人標題,不是因為好玩而已,而是因為《演算法統治世界》裡的故事,真的非常引人入勝,有些也叫人十分震驚!看來我們要無限期支持演算法!


《演算法統治世界》 作者克里斯多夫‧史坦能(Christopher Steiner)本身是著名創業家, 他試圖讓我們瞭解到演算法有多無所不在,不管我們高不高興, 臉書不斷重新定義我們的各種「朋友」和喂我們篩選過的動態,Google則因此丟出我們最想要的資訊 。 就像智慧型手機已讓大家成了低頭族,演算法也已深入人類世界,醫院、銀行、政府、軍隊,各種單位正以極快速度引進各種程式軟體。以後決定我們能否被聘雇的,可能不再是主管,而是電腦程序,而我們要上哪家醫院看病、到哪家銀行開戶等等,都會是由數學家發明的公式決定。

《演算法統治世界》首先指出,華爾街這個以貪為師的地方吸引了最頂尖的數學家與工程師。這些工程師以演算法改變了所有的交易方式,把每毫分的利潤全部吸走,並且幾乎沒有風險,唯一的風險是不知所措的主管機關,可是連敲鍵盤都能用演算法進行。從這片骨牌開始,演算法開始迅速改變人類生活。首個運用的天才,彼特菲(Thomas Peterffy)成了華爾街史上最有富有的傳奇之一。

《演算法統治世界》接著介紹歷史上著名的數學大師如波斯數學家花拉子米(Abū ʿAbdallāh Muḥammad ibn Mūsā al-Khwārizmī,約780-約850)、法國數學家萊布尼茲(Gottfried W. Leibniz,1646-1716)、德國數學家高斯(Johann K. F. Gauss,1777-1855)、法國數學家巴斯卡(Blaise Pascal,16236-1662)、瑞士數學家白努利(Jakob I. Bernoulli,1654-1705)、瑞士數學家尤拉(Leonhard Euler,1707-1783)、美國電腦工程師布林 (Sergey M. Brin,1973年-) 開始, 這些數學家的智慧,逐漸累積成今日演算法的核心。《演算法統治世界》透過這些大師的成就,讓我們認識演算法的簡史。

我們不難想像有告訴你哪一部電影會暢銷的演算法、有指導你如何修改歌曲的演算法,演算法也解出披頭四史上的一個和音迷團,可是演算法最難想像涉入的領域是什麼?是人類的創意?錯了,我們的繆思早已成了電腦程式了。現在甚至有自動作曲的演算法,如果你在YouTube上搜尋Emilly Howell,你會發現這位巴哈風的古典音樂家其實就是一支演算法,是加州大學聖塔克魯茲分校的音樂系教授柯普(David Cope)的傑作,他還創造出能寫俳句的「安妮」(Annie)。當演算法也能夠做出最人性的創作時,人類的特殊價值在哪裡?

除了數學本身,演算法的另一個關鍵是速度,僅僅零點幾秒的差異,就會影響華爾街上某一筆交易能不能被搶下來。為了爭取這一點點時間,有企業家大興土木,從芝加哥到紐約挖出一條關鍵管線,就為了搶那幾毫秒的時間差來套利。這也是一個極為有趣的事蹟,也道出有為的企業家如何不屈不撓、排除萬難地開挖一條筆直的光纖,就能躺著也能賺大錢!

《演算法統治世界》繼續讓我們震驚著:遊戲,原本就是演算法擅長的項目。從下棋開始,演算法的智慧一直在進步,現在,甭說是下棋,連撲克牌這種需要觀察表情、打嘴砲的複雜比賽,也難不倒它;醫學界也是演算法快速成長的地方。腎臟配對、影像醫學的掃描、藥師演算法,以及所有的基因掃描分析,在演算法的幫助下,所有診斷都變得更快準狠;連律師的一些工作都能用演算法取代,快速有效地分析原本需要每小時200鎂的律師費來閱讀的上萬頁法律文件;在美國軍方的發展下,經由問卷來判斷人的個性成為一門學問。而在演算法與大數據的合作下,這門學問開始在各種地方運用。當撥電話去某個客服中心,很可能就先經過演算法的檢查,讓他們確定派一個最對你胃口的客服人員來與你交談,如此將省去大筆費用,也省去顧客的暴怒。

15年前,演算法在股市交易佔不到一成,到了2008年則已經佔到六成。可想而知,金融業在這段時間努力吸收大量的數學家與工程師,讓華爾街的獲利、薪資與規模到達高峰。當我們在網路上下單買下一張股票的時候,我們的競爭對手其實都是一支支「演算法」?這些演算法每一秒鐘都在高速閱讀它們的專屬新聞、分析歷史資訊、在股市進行各種交易。我們考慮下單的猶豫片刻,全世界的演算法早已在股市殺進殺出好幾十萬次,真不愧是一秒幾十萬上下!

不過演算法也不是萬無一失的,史坦能在《演算法統治世界》坦承一秒幾十萬上下的小差錯,幾次造成股市大幅震盪。還好頂尖的數學家和工程師沒被貪婪的華爾街吸乾,2008年金融危機後,讓他們紛紛離開華爾街,走到矽谷加入Google等這樣的科技公司,或者其他新創公司。這股趨勢,讓演算法全力攻進各種日常生活,大幅改變生活樣貌。

經濟學大師凱因斯(John Maynard Keynes,1883-1946)曾預言一種因為自動化而造成的大量失業,事實上,這個狀況正在發生。每個領域都有可能被演算法取代,司機、醫師、律師、作家都在名單上,未來我們的競爭者原來是電腦程式,不管現在專家告訴莘莘學子未來的工作是啥,都有可能全都失準。可是,明的人說不定已佔了先機,先搞出演算法來創業再說。無論如何,《演算法統治世界》裡提到的所有景象都值得我們去思考和面對,還好這是演算法還無法做到的XD

 

本文原刊登於The Sky of Gene

文章難易度
Gene Ng_96
295 篇文章 ・ 23 位粉絲
來自馬來西亞,畢業於台灣國立清華大學生命科學系學士暨碩士班,以及美國加州大學戴維斯分校(University of California at Davis)遺傳學博士班,從事果蠅演化遺傳學研究。曾於台灣中央研究院生物多樣性研究中心擔任博士後研究員,現任教於國立清華大學分子與細胞生物學研究所,從事鳥類的演化遺傳學、基因體學及演化發育生物學研究。過去曾長期擔任中文科學新聞網站「科景」(Sciscape.org)總編輯,現任台大科教中心CASE特約寫手Readmoo部落格【GENE思書軒】關鍵評論網專欄作家;個人部落格:The Sky of Gene;臉書粉絲頁:GENE思書齋

2

1
0

文字

分享

2
1
0
史上第一個全腦世代!獨立、重視個體性、技能比學位更重要的「Z 世代」——《全腦人生》
天下文化_96
・2022/08/24 ・4462字 ・閱讀時間約 9 分鐘

國小高年級科普文,素養閱讀就從今天就開始!!

  • (編按)根據不同世代的背景和特徵,歐美國家流行將不同年代出生的人們依序冠以:
    • 嬰兒潮世代:1946 年~1964 年,二戰後嬰兒潮
    • X 世代:1965年~1980年
    • Y 世代:1980年~1990年,千禧世代
    • Z 世代:1990年代末~2010年代前期,數位原生世代
    • α 世代:Z 世代的子女

隨著科技日新月異,各個世代產生了哪些轉變?

千禧世代之後,Z 世代接棒,他們的父母通常是思想獨立的 X 世代。這些 Z 世代青年比父母一輩更獨立,更運用全腦生活,原因如下:

  • 第一,這些孩子是由 X 世代撫養,長成的一號人格註1超級給力。
  • 第二,Z 世代接受右腦學習教育,造就強大的全腦思維。
  • 第三,X 世代得將嫻熟科技的全腦思維,融入嬰兒潮世代。

那由左腦建構的世界,無獨有偶,Z 世代也得將全腦思維融入千禧世代那右腦主導的世界。綜上所述,Z 世代在生物學上和文化方面都是史上第一個全腦世代。

Z 世代與千禧世代相仿,從嬰兒床時期就與科技產品綁在一起,許多人說自己的母語之前,早就會說谷歌語言。

不過,千禧世代喜歡群體,希望置身社群網路,Z 世代在社交活動上卻更為自主,沒那麼喜歡與人互動,反而與科技互動更自在。

科技常常使得人與人的互動減少,你們也是嗎?圖/Envato Elements

將科技視為自我延伸的「Z 世代」

深究發現,Z 世代其實是將科技視為自我的延伸,有意識的將科技工具整合至日常生理活動。

手機應用程式替他們監控生命徵象,計算步數及每分鐘的呼吸次數,追蹤睡眠,減緩心率,降低焦慮,還會以任何你可想像的方式協助轉移注意力;手機應用程式會告訴他們該吃什麼,何時達到社群媒體每日使用時間上限,何時該睡覺——然後,會播放 δ 波音樂,提升睡眠品質。

儘管資通訊科技可促使人與人之間更頻繁交流,

卻不會激起人際連結的火花,

無法以正向方式刺激大腦。

Z 世代青年如此頻繁使用科技,變得愈來愈自動化,神經愈來愈根據科技來調節,世代差異益發明顯。與美軍世代及嬰兒潮世代的傳統思維、價值觀與行動相比,這些孩子及之後的 α 世代,神經學層面實有獨到之處。

在一個世紀內,大腦的支配方式及價值觀已然產生變化,儘管我們數十年來早已發現,人與人的接觸有助建立更健康的神經網路,科技卻造成人際連結嚴重中斷。

儘管資通訊科技可促使人與人之間更頻繁交流,卻不會激起人際連結的火花,無法以正向方式刺激大腦。人類天生就是社會動物,我們與科技的緊密互動,正在戕害我們的健康。

越科技,與孤獨的距離也更近

根據一份各世代孤獨感的自陳報告研究,科技使用程度與孤獨感之間呈直接正相關。

比起從小身處科技環境的世代,美軍世代及嬰兒潮世代成長過程畢竟並未時常伴著手機、電腦、平板電腦,受試者自陳的孤獨感較低。此外,機不離身導致人機界線模糊,病態狀況層出不窮,夫妻與家人莫不帶著這頭號問題,尋求治療解方。再加上電磁輻射對生物系統的影響仍為未知,科技也開始彷彿列車長不在的失速列車。

Lonely Ryan Reynolds GIF by POKÉMON Detective Pikachu
如果感到孤獨的話,也許是時候該放下手機了。圖/GIPHY

2001 年,全腦 Z 世代族群年紀尚小,有些人甚至還沒有出生,全美社會就歷經九一一事件的創傷,承受創傷後壓力症的餘波;後來 2008 年金融危機,迪士尼樂園假期縮成宅度假,這些孩子很快就知道這世界危機四伏,他們的二號人格遭恐懼和焦慮淹沒,也是理所當然;日常言論充斥著政治對立和仇恨,無怪乎藥物過量與自殺情形肆虐,年輕一代那些自覺在人際網路中無足輕重的孩子,更是置身險境。

要是上述事件還不夠嚴重,請想想這些孩子還面臨 2020 年開始的新冠肺炎大流行,說他們有點像是在野外求生,也不為過。

世道如此艱難,Z 世代如同千禧世代,耗費許多時間應付戰鬥或逃跑反應,並未累積太多財富,當然不願買房或安頓下來,反而希望繼續移動,畢竟移動的目標才難以被抓住。

所以,Z 世代究竟有哪些特徵?

Z 世代如父母一樣獨立,重視左腦一號人格的個體性,沒興趣將自己擠入社會組織架構的框架,於是,許多人選擇直接跳過大學。

Z 世代只要動動手指,就能通達浩如煙海的資訊,真真切切以強大的一號人格與科技共存,也以三號人格的價值觀過活。想要什麼東西,就上亞馬遜訂購,無論他們可能身在何處,訂購物品幾乎立刻就送達門前。三號人格好喜歡科技帶來的即時滿足感。

網際網路幾乎可以即時滿足 Z 世代的大部分物質慾望。圖/Pixabay

Z 世代天生熟悉電腦程式碼,許多人幾乎沒什麼開銷,便賺得大筆收入,因為大型科技公司現在直接透過網路雇用他們的技能。事實上,在科技盛行的世界,Z 世代人才炙手可熱,谷歌與亞馬遜等大公司甚至不需要員工有學士學位。

Z 世代喜愛高薪工作,開名車,身著最新的花押字印花名牌。Z 世代一號人格的自我價值由所持有的事物反映,但若二號人格感覺遭威脅,而三號人格需要衝至別處,也要隨時能將所需要的事物一把抓起帶著走。

這點,與典型的千禧世代特徵有如天壤之別,千禧世代通常會到古著店或二手衣店買衣服,錢比較不會用在自己身上,更傾向捐款做公益。

與社群媒體共生:Z 世代更寬容、更不受拘束

若說千禧世代有了社群媒體而如虎添翼,Z 世代則需要社群媒體,才能如魚得水。

Z 世代建立關係的對象主要是手機、iPad、電腦,因此他們站在文化潮流的尖端,了解現今當紅時事,簡直是第二天性。

右腦強勢又強大的他們,儘管常聽到長輩仇恨言論喋喋不休,面對與之殊異的文化、族裔、宗教、性傾向,都更為寬容;比起應該做的事,花時間做喜歡的事更自在。

對 Z 世代來說,社群媒體佔了生活得很大一部分。圖/pixabay

Z 世代手藝精巧,對自己下了工夫的創作,引以為傲。他們的四號人格希望種植可食用的健康作物,打造美麗花園,關心清淨的空氣和水源,一心保護地球家園。

電腦對人腦帶來的加速、耗損與壓迫

我們這個社會已經達到人類與科技融合的轉捩點。這麼說好了,儘管大腦是由數百億個互相傳遞訊息的神經元組成,造就的神奇副產物卻是人類個體意識的展現;相形之下,我們有數十億顆大腦互相交流,共同展現人類的集體意識。

再更進一步說,網際網路是由數十億部電腦組成,電腦則透過人腦意識互相連接,結果就是:出現遍及全球的科技意識,而這種意識突破了最狂放的科幻想像。

人類與電腦開始產生這種聯繫之時,是人類建構電腦,影響電腦。然而,現在卻是電腦在影響人腦。

隨著千禧世代與 Z 世代到來,網際網路的追蹤行為司空見慣,我們的上網活動、位置、移動模式、飲食、採買的產品、理財習慣、政治喜好,甚至是我們的臉孔、朋友家人互動程度,都會受到追蹤,手機應用程式會監控、蒐集我們的生物系統資料,提供生活建議。

手機無時無刻不在紀錄我們的一舉一動,甚至影響我們的選擇、行動和思考。圖/Pixabay

科技與人類如今步步走向整合,最終我們不僅賦予科技影響我們想法、情緒和生理反應的能力,也已嘗試植入各種形式的科技和神經微晶片。這點令人既期待又害怕。

生物系統的運作集結了各種負回饋迴路,例如,我餓到肚子痛,吃了東西,痛感就沒了。在此生物系統中,我有欲望,並依這種欲望行事,欲望消止之後,我感覺滿足,該系統就暫歇。

以負回饋迴路為本的系統,有其妙處:可以建立並傳達需求,一旦滿足需求,就能恢復自身的平衡與恆定機制。在恆定機制下,生物系統可以自行休息與補足能量。這些負回饋迴路消耗最少的能量來示警,警報一解除,系統就會暫時關閉,返回節能模式,生命因此得以健康發育。

另一方面,資通訊科技堪稱正回饋系統,不會暫歇或停止運作。此系統愈常運轉(也就是你打電動或瀏覽網頁的次數愈多),系統中設置的誘惑也愈多,以便增加你的點閱數,吸引你付出更多時間與注意力。這些科技全天候運作,會加速我們的神經網路,也會耗損我們的神經網路。

大腦就像電腦一樣,偶爾要清理才不會當機

電腦及網際網路的世界都會持續運作,直到當機、需要修復或更新軟體的時候。然後,該系統會重新啟動,並從上次停止的地方再度開始運轉。電腦驅使我們更賣力工作,更用力玩遊戲,更迅速思考。從認知和情緒方面來看,這些科技正在磨耗我們的生物系統,我們更難抵擋科技癮頭。

科技帶來便利,協助我們提高效率,適當使用的話,也能創造更健康的工作與生活平衡狀態——這些當然無可否認,只是,科技老是鼓勵我們「衝衝衝」,可能造成腦部健康大大受損,也可能粉碎我們與身旁親友的關係。

科技就像是生活的加速器,但也讓我們忘了「停下」。圖/Pixabay

大腦基本上就是人類生命的硬碟,我們成天編譯數十億個 Cookie ——來自電視、手機、社群媒體、以及科技替你量身訂做的健身課表,當然還有工作用的電腦。

人腦就像工作用的電腦,我們若沒有一天清理好幾次垃圾檔案,至少也要每天清理一次,重新啟動大腦,才能呈現最佳效能。若要還原為由負回饋迴路驅動的生物系統,我們必須定期按下暫停鍵,給大腦機會更新、重新校準並執行硬體重設,這也是睡眠如此重要的一大因素。

一天之中找些時間,有意識的與四大人格舉行大腦會議,也享有這種好處。無論我們是否需要接受幫助,或者只是剛好想抱持感恩,擁抱新氣象,我們都有能力選擇想成為什麼樣的人,有能力選擇如何成為那樣的人,有能力扶自己一把。

無論這些世代的差異為何,誠如我在 TED 演講所述:

我們是能量生物,藉由右腦半球的意識互相連結,

形成一個人類大家庭。

而此時此地,我們全都是這個星球上的兄弟姊妹,

來這裡,讓這個世界更美好。

而在這個時刻,我們很完美,我們很完整,我們很美麗。

——本文摘自《全腦人生:讓大腦的四大人格合作無間,當個最棒的自己》,2022 年 8 月,天下文化,未經同意請勿轉載。

所有討論 2
天下文化_96
107 篇文章 ・ 592 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

4
3

文字

分享

0
4
3
從「工人智慧」到「人工智慧」——《普林斯頓最熱門的電腦通識課》
商業周刊
・2022/03/13 ・3569字 ・閱讀時間約 7 分鐘

  • 作者/ 布萊恩·柯尼罕( Brian W. Kernighan)
  • 譯者/ 李芳齡

人工智慧的開端

在電腦發展之初的二十世紀中期,人們開始思考可以如何用電腦來執行通常只有人類才能做到的事情,一個明顯的目標是玩西洋跳棋和西洋棋之類的棋盤遊戲,因為這領域有個優點,那就是有完全明確的規則,並有一大群感興趣且有資格稱為專家的人。

另一個目標是把一種語言翻譯成另一種語言,這顯然困難得多,但更為重要,例如,在冷戰時期,從俄文到英文的機器翻譯是很要緊的事。其他的應用包括語音辨識與生成,數學與邏輯推理,做決策,及學習過程。

這些主題的研究很容易取得資助,通常是來自美國國防部之類的政府機構。我們已經在前文中看到,美國國防部對早期網路研究的資助有多珍貴,它引領出網際網路的發展。人工智慧的研究也同樣受到激勵及慷慨資助。

我認為,把 1950 年代及 1960 年代的人工智慧研究形容為「天真的樂觀」,應該是公允的。當時的科學家覺得突破就快到來,再過個五或十年,電腦就能正確地翻譯語言,在西洋棋比賽中擊敗最優的人類棋手。

我當時只是個大學生,但我著迷於這個領域和潛在成果,大四時的畢業論文就以人工智慧為主題。可惜,那篇論文早已被我搞丟了,我也想不起當年的我是否也抱持相同於當時普遍的樂觀態度。

但是,事實證明,幾乎每個人工智慧的應用領域都遠比設想的要困難得多,「再過個五或十年」總是一次又一次被端出來。成果很貧乏,資金用罄了,這領域休耕了一、二十年,那段期間被稱為「人工智慧之冬」。

網際網路發展成未來趨勢。圖/Pexels

把專家的判斷規則,直接寫成一堆判斷式的「工人智慧」階段

到了 1980 年代和1990年代,這個領域開始用一種不同的方法復耕了,這方法名為專家系統(expert systems)或規則式系統(rule-based systems)。

專家系統是由領域專家寫出很多規則,程式設計師把這些規則轉化為程式,讓電腦應用它們來執行某個工作。醫療診斷系統就是一個著名的應用領域,醫生制定研判一名病患有何問題的規則,讓程式去執行診斷、支援、補充,或理論上甚至取代醫生。

MYCIN 系統是早期的一個例子,用於診斷血液感染,它使用約 600 條規則,成效至少跟一般醫生一樣好。這系統是由專家系統先驅愛德華.費根鮑姆(Edward Feigenbaum)發展出來的,他因為在人工智慧領域的貢獻,於 1994 年獲頒圖靈獎。

專家系統有一些實質性的成功,包括顧客支援系統、機械維修系統以及其他焦點領域,但最終看來也有重大限制。

實務上,難以彙集一套完整的規則,而且有太多例外情況。這種方法未順利擴大應用於大量主題或新問題領域,需要隨著情況變化或了解的改進,更新規則,舉例而言,想想看,在 2020 年遇上一名體溫升高、喉嚨痛、劇烈咳嗽的病患時,診斷規則該如何改變?這些原本是一般感冒的症狀,或許有輕微的併發症,但很可能是新冠肺炎,具有高傳染性,且對病患本身及醫療人員都非常危險。

擺脫「工人智慧」,讓電腦能自學——機器學習的基本概念

機器學習的基本概念是對一種演算法給予大量的例子,讓它自行學習,不給它一套規則,也不明確地編程讓它去解決特定問題。

最簡單的形式是,我們為程式提供一個標記了正確值的訓練集(training set),例如,我們不試圖建立如何辨識手寫數字的規則,而是用一個大樣本的手寫數字去訓練一套學習演算法,我們對每個訓練資料標記其數值,這演算法使用它在辨識訓練資料時的成功及失敗來學習如何結合這些訓練資料的特徵,得出最佳辨識結果。

當然,所謂的「最佳」,並不是確定的:機器學習演算法盡力去提高得出好結果的機率,但不保證完美。訓練之後,演算法根據它從訓練集學到的,對新的資料進行分類,或是預測它們的值。

監督式學習——人類教電腦看見特徵,由演算法來算出規則

使用有標記的資料(labeled data/tagged data)來學習,此稱為監督式學習(supervised learning)。大多數監督式學習演算法有一個共通的架構,它們處理大量標記了正確類別(正確值)的例子,例如,這文本是不是垃圾郵件,或者,這照片中的動物是哪種動物,或者,一棟房子的可能價格。演算法根據這個訓練集,研判能讓它得出最佳分類或做出最佳預測的參數值;其實就是讓它學習如何從例子做出推斷。

我們仍然得告訴演算法,哪些「特徵」能幫助做出正確研判,但我們不對這些特徵給予權值或把它們結合起來。舉例而言,若我們試圖訓練演算法去過濾郵件,我們需要與垃圾郵件內容有關的特徵,例如類似郵件用詞(「免費!」)、已知的垃圾郵件主題、怪異字符、拼字錯誤、不正確的文法等等。

這些特徵單獨來看,並不能研判一份郵件就是垃圾郵件,但給予足夠的標記資料,演算法就能開始區別垃圾郵件與非垃圾郵件——至少,在濫發垃圾郵件者做出進一步調整之前,這演算法具有此過濾成效。

手寫數字辨識是一個眾所周知的問題,美國國家標準與技術研究院(National Institute of Standards and Technology,NIST)提供一公開測試組,有 60,000 個訓練圖像集和 10,000 個測試圖像集,<圖表>是其中一個小樣本。機器學習系統對此資料的辨識成效很好,在公開競賽中,錯誤率低於 0.25%,亦即平均 400 個字符中只有一個錯誤。

機器學習演算法可能因種種因素而失敗,例如,「過度擬合」(over-fitting),演算法對其訓練資料的表現很好,但對新資料的表現遠遠較差。或者,我們可能沒有足夠的訓練資料,或是我們提供了錯誤的特徵集,或者,演算法產生的結果可能確證了訓練集內含偏誤。

這在刑事司法應用系統(例如判刑或預測再犯)中是特別敏感的問題,但在使用演算法來對人們做出研判的任何情況,也會造成問題,例如信用評等、房貸申請、履歷表篩選。

垃圾郵件偵測及數位辨識系統是分類型演算法(classification algorithms)的例子:對資料項做出正確分類。

預測型演算法(prediction algorithms)則是試圖預測一數值,例如房子價格、運動比賽得分、股市趨勢。

舉例而言,我們可能試圖根據位置、年齡、客廳面積與房間數等主要特徵來預測房子價格,更複雜的模型——例如 Zillow 使用的模型——會加入其他特徵,例如相似房屋之前的售價、社區特色、房地產稅、當地學校素質。

非監督式學習——讓電腦自己找出特徵與規則

不同於監視式學習,非監督式學習(unsupervised learning)使用未加入標記的訓練資料,亦即沒有對資料加上任何標記或標籤。非監督式學習演算法試圖在資料中找出型態或結構,根據資料項的特徵,把它們分組。有一種盛行的演算法名為「k 群集分析」(k-means clustering),演算法盡力把資料分成 k 群,讓每一群中的資料項相似性最大化,並且各群之間的相似性最小化。

舉例而言,為研判文件的作者,我們可能假設有兩名作者,我們選擇可能的關聯性特徵,例如句子的長度、詞彙量、標點符號風格等等,然後讓分群演算法(clustering algorithm)盡它所能地把文件區分成兩群。

非監督式學習也適用於在一群資料項中辨識離群項(outliers),若大多數資料項以某種明顯方式群集,但有一些資料項不能如此群集,可能代表必須進一步檢視這些資料項。

舉例而言,設若<圖表>中的人工資料代表信用卡使用情形的某個層面,多數資料點分別群集於兩大群之一,但有一些資料點無法群集於這兩群中的任何一群,或許,這些資料點沒什麼問題——群集分析不需要做到完美,但它們也可能是詐欺或錯誤的情況。

群集分析以辨識異常值。圖/普林斯頓最熱門的電腦通識課

非監督式學習的優點是不需要做可能滿花錢的訓練資料標記工作,但它不能應用於所有情況。使用非監督式學習,必須思考出與各群集相關的一些可用的特徵,當然,對於可能有多少個分群,也需有一個起碼的概念。

我曾經做過一個實驗,使用一個標準的 k 群集分析演算法來把約 5,000 個臉孔影像區分為兩群,我天真地期望這演算法或許能區分出性別。結果是,它的正確率約 90%,我不知道它是根據什麼來下結論的,我也無法從那些錯誤的情況中看出什麼明顯型態。

——摘自《普林斯頓最熱門的電腦通識課》,2022 年 2 月,商業周刊

商業周刊
9 篇文章 ・ 3 位粉絲

0

8
1

文字

分享

0
8
1
雲端是什麼?——《普林斯頓最熱門的電腦通識課》
商業周刊
・2022/03/12 ・3015字 ・閱讀時間約 6 分鐘

  • 作者/ 布萊恩‧柯尼罕( Brian W. Kernighan)
  • 譯者/ 李芳齡

網路的普及

回想第六章中敘述的電腦運算使用模式,你有一台或好幾台個人電腦,你讓個別應用程式執行不同的工作,例如用 Word 製作文件,用 Quicken 或 Excel 做你的個人財務,用 iPhoto 管理你的相片。這些程式雖可能連結網際網路以取得一些服務,但它們在你的電腦上運轉,你可以不時地去下載一個修補了漏洞的新版本應用程式,偶爾可能得購買一個升級版以取得新功能。

這個模式的本質是,程式和資料都在你自己的電腦上。若你在一台電腦上修改了一個檔案,然後在另一台電腦上需要這檔案,你必須自己做轉移。若你在辦公室或外出旅行途中需要一個儲存於你家中一台電腦上的檔案,那就麻煩了。若你需要在一台視窗個人電腦和一台麥金塔電腦(Mac)上都有 Excel 或 PowerPoint,你必須為兩台電腦各買一個程式。上面說的這些情況,還沒把你的手機包含在內哦。

另一種不同的模式是愈來愈普及:使用瀏覽器或手機去存取及操作儲存於網際網路伺服器上的資訊。Gmail 或 Outlook 之類的郵件服務是最普遍的例子,你可以從任何一台電腦或手機存取你的電子郵件,可以上傳一封在本機上撰寫的郵件訊息,或是下載郵件訊息至本機檔案系統,但多數時候,你把資訊留在提供服務的伺服器上。

你不需要做什麼軟體更新,但不時會有新功能出現。你通常是在臉書上跟朋友保持聯繫或觀看他們的照片,但交談及照片儲存在臉書,不是儲存在你自己的電腦上,這些服務是免費的,唯一可見的「成本」是當你閱讀你的郵件或查看你的朋友在做什麼時,你可能會看到廣告。

科技未來趨勢——雲端運算

這種模式通常被稱為「雲端運算」(cloud computing),因為網際網路被比喻為「雲」,沒有特定的實體位置,資訊被儲存於「雲端」的某處。

電子郵件和社交網路是最常見的雲端服務,但還有很多其他的雲端服務,例如多寶箱(Dropbox)、推特、領英、YouTube、線上行事曆等等。資料不是儲存於本機,而是儲存於雲端,亦即雲端服務供應商的伺服器上:你的電子郵件及行事曆儲存於谷歌的伺服器,你的相片儲存於多寶箱(Dropbox)或臉書的伺服器,你的履歷表儲存於領英的伺服器等等。

雲端運算示意圖。圖/Pixabay

雲端運算的問世,得力於多個因素的匯聚。個人電腦變得愈來愈強大的同時,瀏覽器也是,瀏覽器現在能夠有效率地執行顯示要求很高的大程式,儘管使用的程式語言是直譯式的 JavaScript。對多數人而言,現在的頻寬及用戶端與伺服器端之間的延遲(等候時間)遠優於十年前,這使得資料的傳送與接收更快,甚至在你輸入搜尋詞時,當即反應你的鍵擊,在你還未輸入完之前,就列出一些建議的搜尋詞。結果是,以往需要一個單獨的程式去處理的絕大多數使用者介面操作,用瀏覽器就能搞定,在此同時,使用一台伺服器去承載大量資料,執行任何複雜運算。這種組織方式也在手機上運作得很好:不需要再下載一款行動應用程式。

以瀏覽器為基礎(browser-based)的系統的反應速度可以媲美以個別電腦為基礎(desktop-based)的系統,並且讓你可以從任何地方存取資料。

以來自谷歌的雲端「office」工具為例,它提供文書處理器、試算表、以及簡報程式,讓多使用者可以同時存取使用及更新。(譯註:以瀏覽器為基礎的系統又稱為 web-based,或稱「brower-server model」,簡稱 B/S 模式,指的是透過瀏覽器去使用網路上的軟體來執行各種工作;以個別電腦為基礎的系統又稱為 client-based,或稱為「client-server model」,簡稱 C/S 模式,指的是必須在每台電腦上安裝各種軟體來執行各種工作。)

雲端工具的快速崛起

一個受到關心的議題是,這些雲端工具會不會最終運轉得夠好而完全取代以個別電腦為基礎的版本。你大概可以想像得到,微軟非常關心這個,因為 Office 軟體佔該公司營收的相當比重,而 Office 主要在視窗作業系統上執行,微軟的其餘營收大多來自視窗作業系統。以瀏覽器為基礎的文書處理及試算表不需要來自微軟的任何軟體,因此將威脅到微軟的 Offic 及視窗作業系統這兩大核心業務。

目前,谷歌文件(Google Docs)及其他類似的系統還不具備 Word、Excel、及 PowerPoint 的所有功能,但科技進步史中充滿這樣的例子――明顯較差的系統問市,搶走認為此系統已經夠好的新使用者,漸漸侵蝕在位者的市場佔有率,並且持續改進本身的功能。微軟顯然很清楚這問題,實際上,為因應此問題,該公司已經推出雲端版本的 Office 365。

雲端工具的快速崛起。圖/Pixabay

以網路為基礎(web-based,亦即以瀏覽器為基礎)的服務其實對微軟及其他供應商具有吸引力,因為易於採用訂閱收費模式,用戶必須持續付費以取得服務。但是,消費者可能偏好一次性購買軟體,必要時再付費升級。我目前仍然在我的較舊的麥金塔電腦上使用 2008 年版本的 Microsoft Office,它運作得很好(在此應該稱讚微軟),而且,它仍然偶爾獲得安全性更新,因此,我並不急於升級。

雲端運算仰賴用戶端的快速處理及大量記憶體,以及伺服器端的高頻寬。用戶端的程式是用 JavaScript 語言撰寫的,通常錯綜複雜。JavaScript 程式重度要求瀏覽器更新及快速顯示圖形資料,敏捷反應使用者的動作(例如拖曳)及伺服器的動作(例如更新的內容),這已經是夠難了,難上加難的是,瀏覽器版本與 JavaScript 版本之間的不相容性,需要雲端服務供應商找出傳送程式給用戶端的最佳方法。不過,伴隨電腦運算速度愈來愈快,以及更加遵從標準,這些都在進步中。

雲端運算可以在「於何處執行運算」和「處理過程中把資訊寄存於何處」這兩者之間作出取捨,例如,使 JavaScript 程式與特定瀏覽器脫鉤的方法之一是,在程式本身裡頭包含測試,譬如:「若瀏覽器是 Firefox 75 版,就執行這個;若瀏覽器是 Safari 12 版,就執行那個;若為其他瀏覽器版本,執行別的。」這樣的程式比較大,意味的是,需要更多頻寬來把 JavaScript 程式傳送至用戶端,而且,程式中增加的測試可能使瀏覽器運轉得較慢。另一種方法是,伺服器可以詢問用戶使用的是哪種瀏覽器,然後傳送針對這款瀏覽器撰寫的程式,這程式可能更簡潔,執行得更快,不過,對於原本就小的程式,差異可能不大。

網頁內容可以用不壓縮形式傳送,這樣,用戶端及伺服器端需要的處理工作較少,但需要較多的頻寬來傳輸;或者,用壓縮形式來傳送網頁內容,傳輸時需要的頻寬較少,但兩端需要增加處理工作。有時候,只有一端做壓縮處理,大型 JavaScript 程式經常被壓縮,移除所有不必要的空白,讓變數及函式使用一或兩個字母的名稱,壓縮後的程式是人類看不懂的,但用戶端電腦不在意。

儘管有技術性挑戰,若你總是能連上網際網路的話,雲端運算的優點很多。它們供應的軟體總是最新的,資訊儲存於專業管理的、有大容量的伺服器上,客戶資料隨時都有備份,幾乎沒有遺失的可能。一份文件只有一種版本,不會發生同一份文件在不同的電腦上可能有不一致版本的情形,而且,很容易即時共享文件及通力合作。雲端服務的價格很便宜,個人消費者往往可以免費取得,但企業客戶可能得付費。

——本文摘自《普林斯頓最熱門的電腦通識課》,2022 年 2 月,商業周刊

商業周刊
9 篇文章 ・ 3 位粉絲