0

0
0

文字

分享

0
0
0

海量資料萬歲?請三思!

活躍星系核_96
・2013/05/25 ・4971字 ・閱讀時間約 10 分鐘 ・SR值 616 ・十年級

本文出處:Think Again: Big Data
作者:KATE CRAWFORD
譯者:Leonard Chien

圖片取自 https://team.inria.fr/zenith/ibc-seminar-patrick-valduriez-parallel-techniques-for-big-data-march-22-2pm/

「海量資料」是當今最流行的用語,也是科技界對世上各種棘手難題的萬用解答,意指藉由分析龐大資訊後,歸納出模式、精闢見解,並預測複雜問題的答案,聽來或許有些無趣,但無論是阻止恐怖份子終結貧窮拯救地球,海量資料支持者都深信可迎刃而解。

在《Big Data: A Revolution That Will Transform How We Live, Work, and Think》一書中,兩位作者寫道,「對於氣候變遷、根除疾病、促進良好治理與經濟發展等全球迫切問題,海量資料均可提供部分答案,為社會提供眾多好處」。

只要握有足夠數據,例如iPhone內部資料、雜貨店購物內容、網路交友檔案、全國匿名醫療紀錄,電腦運算即可拆解這些原始資料,從中挖掘出無數見解。美國歐巴馬政府亦傾力投入,於5月9日「首開先例」,公開「過往無法取用或管理的資料」,供企業家、研究人員及大眾使用。

-----廣告,請繼續往下閱讀-----

歐巴馬總統表示,「我們希望促成更多民間創新與發現,因此史上首次釋出大量美國資料,開放人們輕鬆取用,優秀企業家也已開發出眾多用途」。

可是海量資料的威力是否名實相符?在龐大電腦數據裡,是否真能揭露人類行為的秘密?《外交政策》雜誌邀請麻省理工學院「公民媒體中心」成員Kate Crawford,說明數字背後的真相。-編按

「只要資料足夠,數字自會說話。」

不可能。海量資料支持者希望我們相信,在程式碼字裡行間與巨大資料庫內,必有客觀及通用的見解,能解釋人類行為模式,包括消費情況、犯罪或恐怖主義行動、健康習慣、員工產能等,但他們卻總不願正視缺點。數字不會說話,資料不論規模大小,仍受人類設計限制,Apache Hadoop軟體架構等海量資料工具亦無法排除偏斜、落差與假設錯誤。當海量資料試圖歸納社會狀態,這些因素影響格外顯著,但我們卻常誤以為分析結果比個人意見更客觀。其實海量資料、個人觀感及體驗皆然,充滿偏見及盲點,可是許多人卻以為資料量越大就代表品質越好的資料,也以為「相關」與「因果」一樣好。

例如社群媒體常成為海量資料分析主題,其中也確實充斥大量資訊,據稱從Twitter資料裡可見,人們離家愈遠愈開心,且情緒在每週四晚上最低落。可是我們必須懂得質疑資料背後真正的涵義,例如「皮猶研究中心」指出,美國只有16%的成年網路用戶使用Twitter,亦無法如實代表社會結構,通常年紀較輕、較集中於都會區。此外,許多Twitter帳號均為自動機器人或假檔案,近期估計總數可能高達2000萬,因此討論如何從Twitter分析輿論之前,得先釐清這些反應究竟來自真人或電腦演算式。

-----廣告,請繼續往下閱讀-----

縱然各位相信絕大多數Twitter用戶均為真人,偏見依然存在,例如為分析2013年澳洲網球公開賽中,人們在社群媒體對哪些選手「看法最佳」,IBM透過「社會觀感指數」,大量分析Twitter訊息,結果由Victoria Azarenka奪冠,但許多訊息提到她時,都在批評濫用傷停時間,如此看來,很難相信IBM的演算式確能反映現實。

即便排除不良資料問題,演算式本身亦有偏見,新聞彙整網站取用你我的個人偏好與瀏覽紀錄,編排出用戶感興趣的最新消息,其中假設頻率與重要性呈正比,或個人社群最常分享的資訊,也必定與你興趣相符。演算式過濾龐大資料時,也訂定呈現世界的原則,一般用戶不會感受到這些規則,可是大大左右民眾觀點。

不少資訊工程專家正在努力解除疑慮,Ed Felten為普林斯頓大學教授,曾為美國聯邦貿易委員會首席科技專家,最近發起一項計畫,測驗各項演算式的偏見,尤其是美國政府也運用演算式評估個人,例如聯邦調查局與運輸安全局即彙整多項官方海量資料,列出航空旅客黑名單,做為飛安制度之用。

「海量資料可提高城市智慧及效能。」

仍有上限。海量資料可提供珍貴見解,協助改善城市,但也僅止於此,由於資料生成與收集過程並不均等,其中會出現「信號問題」,造成有些民眾及社區遭到漠視或代表性不足,若以海量資料處理城市規劃問題,必須仰賴官員同時瞭解資料及其侷限。

-----廣告,請繼續往下閱讀-----

例如美國波士頓的Street Bump應用程式裡,收集行經坑洞的駕駛人智慧型手機資料,能以低成本途徑收集資訊,類似應用程式也與日俱增,可是城市若完全依賴智慧型手機用戶提供資料,等於自動排除部分樣本,某些社區內智慧型手機用戶比例若較低,通常年齡層較高,經濟條件也較弱勢,因此遭到排擠。波士頓市政單位盡力想彌補潛在資料缺口,但假若官員對此警覺性較低,就可能忽略這項問題,導致資源分配不均,進一步擴大既有社會失衡現象。2012年Google的流感趨勢預測中,就曾犯下相同錯誤,嚴重高估年度流感比例,證明若依賴有瑕疵的海量資料,將大大影響公共服務與政策。

「開放政府」計畫將公部門資料張貼於網路上,如Data.gov或美國白宮「開放政府計畫」,也可能面臨相同問題,資料增加未必可改善透明度、責信等政府功能,必須搭配公眾參與機制,政府也得懂得如何詮釋資料,再運用適當資料因應。這些條件都不簡單,況且目前優秀的資料科學家也不足,各大學仍在趕緊劃定學科領域、編寫課程,希望能滿足需求。

人權團體也希望運用海量資料,瞭解各種衝突和危機,但資料與分析品質同樣令人存疑,麥克阿瑟基金會最近核准17.5萬美元的獎助金,由卡內基梅隆大學人權科學中心投入為期18個月的研究,分析海量資料數據如何改變人權運動發展,例如開發「可信度測驗」,以驗證張貼於Crisis MappersUshahidi、Facebook、YouTube等網站的人權侵害控訴真偽。該中心主任Jay D. Aronson指出,「包括學界及人權組織的消息來源,以及資料使用情況,都產生嚴重問題,有了這些新科技之後,對於通報者的人身安全是利或弊,許多時候仍不得而知」。

「海量資料對各個社會族群一視同仁。」

未必如此。海量資料號稱客觀,因為原始資料似乎能排除社會偏見,故可減少歧視少數族群的機率,讓大規模分析避免族群歧視,但海量資料之所以存在,就是為了將個人劃入族群之中,再解釋各族群行為有何異同。例如近期一篇論文才提到,在海量資料基因體研究內,科學家如何讓個人立場左右研究方向。

-----廣告,請繼續往下閱讀-----

如Alistair Croll所言,人們可能運用海量資料製造價格歧視,引起眾多公民權疑慮,在「個人化」名義下,海量資料卻可能用來針對特定社會族群,給予不一樣的待遇,法律通常禁止企業與個人出現此種歧視行為。企業購買網路廣告宣傳信用卡時,可能依據家戶所得或信貸紀錄,挑選特定目標群眾,導致他人完全無從得知該項優惠。Google甚至握有浮動設定內容價格的專利,例如你過往消費紀錄若顯示,可能花高價購買鞋子,下回在網路上打算買鞋時,搜尋結果也將傾向高價品。雇主如今也希望在人力資源方面運用海量資料,完全透過分析電腦使用習慣,評估如何提高員工生產力,而員工可能對這些資料與用途毫不知情。

其他因素也可能產生歧視,例如《紐約時報》曾報導,量販店Target多年前便已開始收集消費者分析數據,如今消費紀錄相當龐大,在某些情況下,甚至可單純根據消費品項歴史,判斷該名女性顧客是否懷孕,可靠度甚至高達87%。儘管該公司代表在報導內強調,這些資料是用來改善對準媽媽的行銷策略,可是這種手段很容易用於歧視,大大影響社會平等與隱私。

英國劍橋大學最近發表一項海量資料研究,運用58000則Facebook網站的按讚紀錄,預測用戶相當敏感的個人資訊,例如性傾向、族裔、宗教與政治立場、個性、智商、幸福程度、菸毒習慣、父母婚姻狀況、年齡、性別等,記者Tom Foremski指出,「取得如此敏感的資訊後,可能遭雇主、房東、政府機關、教育機構、民間組織利用,刻意歧視與懲罰個人,且對方完全無法抵抗」。

海量資料也會影響執法,無論是華府德拉瓦州的新堡郡,警方都開始採用海量資料「預防巡邏」模型,希望有助調查懸案,甚至避免犯罪發生,可是若將警力集中在海量資料判斷出的潛在犯罪熱點,卻可能強化某些社會族群的污名,認為他們較可能犯案,也等於將區域警力落差視為常態。一名警官曾表示,雖然預防巡邏演算式刻意避免種族、性別等分類,但若隨意使用這些系統,又未察覺差別待遇可能造成的後果,將會造成「警察與社區關係惡化,欠缺程序正義、遭指控種族歧視,也威脅執法基礎」。

-----廣告,請繼續往下閱讀-----

「海量資料屬匿名,不會侵犯隱私。」

大錯特錯。許多海量資料供應者都盡其所能,希望避免個人身分曝光,但風險卻仍存在,大量手機資料或許看似匿名,但近期研究歐洲150萬手機用戶資料顯示,只要四點參考點,即可辨識95%的民眾。研究人員提到,人們往來城市路徑有其獨特性,又能以大量公開資料組推論,讓隱私「疑慮愈來愈強烈」。拜Alessandro Acquisti等學者之賜,只要交叉分析公開資料,即可預測個人社會安全碼。

可是海量資料的隱私問題,不只是一般身分辨識風險,目前醫療資料轉售給分析公司後,可能用來追蹤個人身分,許多人都在討論個人化醫學,希望藥品及其他療程能夠針對個人需求,讓治療效果如同取自個人DNA。此舉可改善療效,但基本上得辨識人體分子和基因,假若使用不當或外流,可能造成高風險。儘管RunKeeperNike+等個人健康資料收集裝置迅速增加,尚無太多海量資料實際改善醫療服務的案例。

海量資料能源計畫亦收集各種私密資訊,智慧電力網即為一例,分析龐大消費者用電量資料後,希望改善住家與企業能源配送效能,雖然前景可期,隱私風險也很高,不僅可預測能源用量及需用時間,亦包括住戶在家中動向及行為的時刻資訊,例如何時洗澡、客人何時離開、何時關燈睡覺。

這些充滿個人資訊的海量資料,自然成為駭客及洩露情報者下手的目標,「維基解密」為近期釋出海量資料的知名案例,此外,英國境外金融產業資料最近也大量曝光,顯見人們不論貧富,個人資料都可能公諸於世

-----廣告,請繼續往下閱讀-----

「海量資料是科學的未來。」

部分屬實,但仍在持續發展。海量資料確實提供科學發展的新方向,例如在發現希格斯玻子的過程中,歐洲核子研究組織CERN即運用Hadoop分散式檔案系統管理資料,可是除非我們正視及處理海量資料反映人類生活的缺陷,就可能依據錯誤假設做出重大公共政策及企業決定。

為處理此事,資料科學家開始與社會科學家合作,因為後者處理資料的經驗相當豐富,包括評估來源、資料收集方式、使用倫理等,發掘結合海量資料策略與少量資料研究的新方式,不只是需要焦點團體、A/B測試等廣告行銷策略。新混成方式能思考行為背後的成因,而不只是計算事物發生頻率,故除了資訊檢索與機器學習,也需要社會學分析及民族誌學見解。

科技公司很早就明白,社會科學家能協助解釋消費者與產品互動的方式,例如PARC就曾聘請知名人類學家Lucy Suchman,資訊工程、統計、社會科學等領域未來將更密切合作,不僅是為測試彼此研究所得,也要以更嚴謹的態度提出各種問題。

每天各方都收集關於你我的大量資料,包括Facebook點擊習慣、衛星定位資料、醫療處方、Netflix影片觀賞紀錄等,我們必須盡早決定可託付資料的對象及用途。資料永遠不可能中立,也很難匿名,但我們可運用各項專業領域,以察覺種種偏見、落差與假設,進而面對有關隱私及公平性的新挑戰。

-----廣告,請繼續往下閱讀-----

 

本文原發表於譯者部落格「我書

文章難易度
活躍星系核_96
752 篇文章 ・ 125 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

0
0

文字

分享

0
0
0
Intel® Core™ Ultra AI 處理器:下一代晶片的革命性進展
鳥苷三磷酸 (PanSci Promo)_96
・2024/05/21 ・2364字 ・閱讀時間約 4 分鐘

本文由 Intel 委託,泛科學企劃執行。 

在當今快節奏的數位時代,對於處理器性能的需求已經不再僅僅停留在日常應用上。從遊戲到學術,從設計到內容創作,各行各業都需要更快速、更高效的運算能力,而人工智慧(AI)的蓬勃發展更是推動了這一需求的急劇增長。在這樣的背景下,Intel 推出了一款極具潛力的處理器—— Intel® Core™ Ultra,該處理器不僅滿足了對於高性能的追求,更為使用者提供了運行 AI 模型的全新體驗。

先進製程:效能飛躍提升

現在的晶片已不是單純的 CPU 或是 GPU,而是混合在一起。為了延續摩爾定律,也就是讓相同面積的晶片每過 18 個月,效能就提升一倍的目標,整個半導體產業正朝兩個不同方向努力。

其中之一是追求更先進的技術,發展出更小奈米的製程節點,做出體積更小的電晶體。常見的方法包含:引進極紫外光 ( EUV ) 曝光機,來刻出更小的電晶體。又或是從材料結構下手,發展不同構造的電晶體,例如鰭式場效電晶體 ( FinFET )、環繞式閘極 ( GAAFET ) 電晶體及互補式場效電晶體 ( CFET ),讓電晶體可以更小、更快。這種持續挑戰物理極限的方式稱為深度摩爾定律——More Moore。

-----廣告,請繼續往下閱讀-----

另一種則是將含有數億個電晶體的密集晶片重新排列。就像人口密集的都會區都逐漸轉向「垂直城市」的發展模式。對晶片來說,雖然每個電晶體的大小還是一樣大,但是重新排列以後,不僅單位面積上可以堆疊更多的半導體電路,還能縮短這些區塊間資訊傳遞的時間,提升晶片的效能。這種透過晶片設計提高效能的方法,則稱為超越摩爾定律——More than Moore。

而 Intel® Core™ Ultra 處理器便是具備兩者優點的結晶。

圖/PanSci

Tile 架構:釋放多核心潛能

在超越摩爾定律方面,Intel® Core™ Ultra 處理器以其獨特的 Tile 架構而聞名,將 CPU、GPU、以及 AI 加速器(NPU)等不同單元分開,使得這些單元可以根據需求靈活啟用、停用,從而提高了能源效率。這一設計使得處理器可以更好地應對多任務處理,從日常應用到專業任務,都能夠以更高效的方式運行。

CPU Tile 採用了 Intel 最新的 4 奈米製程和 EUV 曝光技術,將鰭式電晶體 FinFET 中的像是魚鰭般阻擋漏電流的鰭片構造減少至三片,降低延遲與功耗,使效能提升了 20%,讓使用者可以更加流暢地執行各種應用程序,提高工作效率。

-----廣告,請繼續往下閱讀-----
鰭式電晶體 FinFET。圖/Intel

Foveros 3D 封裝技術:高效數據傳輸

2017 年,Intel 開發出了新的封裝技術 EMIB 嵌入式多晶片互聯橋,這種封裝技術在各個 Tile 的裸晶之間,搭建了一座「矽橋 ( Silicon Bridge ) 」,達成晶片的橫向連接。

圖/Intel

而 Foveros 3D 封裝技術是基於 EMIB 更進一步改良的封裝技術,它能將處理器、記憶體、IO 單元上下堆疊,垂直方向利用導線串聯,橫向則使用 EMIB 連接,提供高頻寬低延遲的數據傳輸。這種創新的封裝技術不僅使得處理器的整體尺寸更小,更提高了散熱效能,使得處理器可以長期高效運行。

運行 AI 模型的專用筆電——MSI Stealth 16 AI Studio

除了傳統的 CPU 和 GPU 之外,Intel® Core™ Ultra 處理器還整合了多種專用單元,專門用於在本機端高效運行 AI 模型。這使得使用者可以在不連接雲端的情況下,依然可以快速準確地運行各種複雜的 AI 算法,保護了數據隱私,同時節省了連接雲端算力的成本。

MSI 最新推出的筆電 Stealth 16 AI Studio ,搭載了最新的 Intel Core™ Ultra 9 處理器,是一款極具魅力的產品。不僅適合遊戲娛樂,其外觀設計結合了落質感外型與卓越效能,使得使用者在使用時能感受到高品質的工藝。鎂鋁合金質感的沉穩機身設計,僅重 1.99kg,厚度僅有 19.95mm,輕薄便攜,適合需要每天通勤的上班族,與在咖啡廳尋找靈感的創作者。

-----廣告,請繼續往下閱讀-----

除了外觀設計之外, Stealth 16 AI Studio 也擁有出色的散熱性能。搭載了 Cooler Boost 5 強效散熱技術,能夠有效排除廢熱,保持長時間穩定高效能表現。良好的散熱表現不僅能夠確保處理器的效能得到充分發揮,還能幫助使用者在長時間使用下的保持舒適性和穩定性。

Stealth 16 AI Studio 的 Intel Core™ Ultra 處理器,其性能更是一大亮點。除了傳統的 CPU 和 GPU 之外,Intel Core™ Ultra 處理器還整合了多種專用單元,專門針對在本機端高效運行 AI 模型的需求。內建專為加速AI應用而設計的 NPU,更提供強大的效能表現,有助於提升效率並保持長時間的續航力。讓使用者可以在不連接雲端的情況下,依然可以快速準確地運行各種複雜的 AI 算法,保護了數據隱私,同時也節省了連接雲端算力的成本。

軟體方面,Intel 與眾多軟體開發商合作,針對 Intel 架構做了特別最佳化。與 Adobe 等軟體的合作使得使用者在處理影像、圖像等多媒體內容時,能夠以更高效的方式運行 AI 算法,大幅提高創作效率。獨家微星AI 智慧引擎能針對使用情境並自動調整硬體設定,以實現最佳效能表現。再加上獨家 AI Artist,更進一步提升使用者體驗,直接輕鬆生成豐富圖像,實現了更便捷的內容創作。

此外 Intel 也與眾多軟體開發商合作,針對 Intel 架構做了特別最佳化,讓 Intel® Core™ Ultra處理器將AI加速能力充分發揮。例如,與 Adobe 等軟體使得使用者可以在處理影像、圖像等多媒體內容時,能夠以更高效的方式運行 AI 算法,大幅提高創作效率。為各行專業人士提供了更加多元、便捷的工具,成為工作中的一大助力。

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
199 篇文章 ・ 305 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

2

3
0

文字

分享

2
3
0
數據塑造生活與社會,讓人既放心但又不安?——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/28 ・2760字 ・閱讀時間約 5 分鐘

數位世界已經改變了我們日常生活的體驗,一個人從早到晚都會接受到大量數據,受益於大量數據,也貢獻大量數據。這些數據龐大的程度,和消化資訊的方式已經太過繁多,人類心智根本無法處理。

與數位科技建立夥伴關係

所以人會本能地或潛意識地倚賴軟體來處理、組織、篩選出必要或有用的資訊,也就是根據用戶過去的偏好或目前的流行,來挑選要瀏覽的新項目、要看的電影、要播放的音樂。自動策劃的體驗很輕鬆容易,又能讓人滿足,人們只會在沒有自動化服務,例如閱讀別人臉書塗鴉牆上的貼文,或是用別人的網飛帳號看電影時,才會注意到這服務的存在。

有人工智慧協助的網路平臺加速整合,並加深了個人與數位科技間的連結。人工智慧經過設計和訓練,能直覺地解決人類的問題、掌握人類的目標,原本只有人類心智才能管理的各種選擇,現在能由網路平臺來引導、詮釋和記錄(儘管效率比較差)。

日常生活中很少察覺到對自動策劃的依賴。圖/Pexels

網路平臺收集資訊和體驗來完成這些任務,任何一個人的大腦在壽命期限內都不可能容納如此大量的資訊和體驗,所以網路平臺能產出看起來非常恰當的答案和建議。例如,採購員不管再怎麼投入工作,在挑選冬季長靴的時候,也不可能從全國成千上萬的類似商品、近期天氣預測、季節因素、回顧過去的搜尋記錄、調查物流模式之後,才決定最佳的採購項目,但人工智慧可以完整評估上述所有因素。

-----廣告,請繼續往下閱讀-----

因此,由人工智慧驅動的網路平臺經常和我們每個人互動,但我們在歷史上從未和其他產品、服務或機器這樣互動過。當我們個人在和人工智慧互動的時候,人工智慧會適應個人用戶的偏好(網際網路瀏覽記錄、搜尋記錄、旅遊史、收入水準、社交連結),開始形成一種隱形的夥伴關係。

個人用戶逐漸依賴這樣的平臺來完成一串功能,但這些功能過去可能由郵政、百貨公司,或是接待禮賓、懺悔自白的人和朋友,或是企業、政府或其他人類一起來完成。

網路平臺和用戶之間是既親密又遠距的聯繫。圖/Envato Elements

個人、網路平臺和平臺用戶之間的關係,是一種親密關係與遠距聯繫的新穎組合。人工智慧網路平臺審查大量的用戶數據,其中大部分是個人數據(如位置、聯絡資訊、朋友圈、同事圈、金融與健康資訊);網路會把人工智慧當成嚮導,或讓人工智慧來安排個人化體驗。

人工智慧如此精準、正確,是因為人工智慧有能力可以根據數億段類似的關係,以及上兆次空間(用戶群的地理範圍)與時間(集合了過去的使用)的互動來回顧和反應。網路平臺用戶與人工智慧形成了緊密的互動,並互相學習。

-----廣告,請繼續往下閱讀-----

網路平臺的人工智慧使用邏輯,在很多方面對人類來說都難以理解。例如,運用人工智慧的網路平臺在評估圖片、貼文或搜尋時,人類可能無法明確地理解人工智慧會在特定情境下如何運作。谷歌的工程師知道他們的搜尋功能若有人工智慧,就會有清楚的搜尋結果;若沒有人工智慧,搜尋結果就不會那麼清楚,但工程師沒辦法解釋為什麼某些結果的排序比較高。

要評鑑人工智慧的優劣,看的是結果實用不實用,不是看過程。這代表我們的輕重緩急已經和早期不一樣了,以前每個機械的步驟或思考的過程都會由人類來體驗(想法、對話、管理流程),或讓人類可以暫停、檢查、重複。

人工智慧陪伴現代人的生活

例如,在許多工業化地區,旅行的過程已經不需要「找方向」了。以前這過程需要人力,要先打電話給我們要拜訪的對象,查看紙本地圖,然後常常在加油站或便利商店停下來,確認我們的方向對不對。現在,透過手機應用程式,旅行的過程可以更有效率。

透過導航,為旅途帶來不少便利。圖/Pexels

這些應用程式不但可以根據他們「所知」的交通記錄來評估可能的路線與每條路線所花費的時間,還可以考量到當天的交通事故、可能造成延誤的特殊狀況(駕駛過程中的延誤)和其他跡象(其他用戶的搜尋),來避免和別人走同一條路。

-----廣告,請繼續往下閱讀-----

從看地圖到線上導航,這轉變如此方便,很少人會停下來想想這種變化有多大的革命性意義,又會帶來什麼後果。個人用戶、社會與網路平臺和營運商建立了新關係,並信任網路平臺與演算法可以產生準確的結果,獲得了便利,成為數據集的一部分,而這數據集又在持續進化(至少會在大家使用應用程式的時候追蹤個人的位置)。

在某種意義上,使用這種服務的人並不是獨自駕駛,而是系統的一部分。在系統內,人類和機器智慧一起協作,引導一群人透過各自的路線聚集在一起。

持續陪伴型的人工智慧會愈來愈普及,醫療保健、物流、零售、金融、通訊、媒體、運輸和娛樂等產業持續發展,我們的日常生活體驗透過網路平臺一直在變化。

網路平台協助我們完成各種事項。圖/Pexels

當用戶找人工智慧網路平臺來協助他們完成任務的時候,因為網路平臺可以收集、提煉資訊,所以用戶得到了益處,上個世代完全沒有這種經驗。這種平臺追求新穎模式的規模、力量、功能,讓個人用戶獲得前所未有的便利和能力;同時,這些用戶進入一種前所未有的人機對話中。

-----廣告,請繼續往下閱讀-----

運用人工智慧的網路平臺有能力可以用我們無法清楚理解,甚至無法明確定義或表示的方式來形塑人類的活動,這裡有一個很重要的問題:這種人工智慧的目標功能是什麼?由誰設計?在哪些監管參數範圍裡?

類似問題的答案會繼續塑造未來的生活與未來的社會:誰在操作?誰在定義這些流程的限制?這些人對於社會規範和制度會有什麼影響?有人可以存取人工智慧的感知嗎?有的話,這人是誰?

如果沒有人類可以完全理解或查看數據,或檢視每個步驟,也就是說假設人類的角色只負責設計、監控和設定人工智慧的參數,那麼對人工智慧的限制應該要讓我們放心?還是讓我們不安?還是既放心又不安?

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
所有討論 2
聯經出版_96
27 篇文章 ・ 20 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。

0

1
0

文字

分享

0
1
0
AI 的 3 種學習形式:不同的目標功能,不同的訓練方式——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/27 ・2368字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

搭配不同的任務,人工智慧的應用方式也不一樣,所以開發人員用來創造人工智慧的科技也不一樣。這是部署機器學習時最基礎的挑戰:不同的目標和功能需要不同的訓練技巧。

機器學習最基礎的挑戰:不同目標和功能需配合不同訓練技巧。圖/Pexels

不過,結合不同的機器學習法,尤其是應用神經網路,就出現不同的可能性,例如發現癌症的人工智慧。

機器的 3 種學習形式

在我們撰寫本章的時候,機器學習的三種形式:受監督式學習、不受監督式學習和增強式學習,都值得注意。

受監督式學習催生了發現海利黴素的人工智慧。總結來說,麻省理工學院的研究人員想要找出有潛力的新抗生素,在資料庫裡放入二千種分子來訓練模型,輸入項目是分子結構,輸出項目是抑菌效果;研究人員把分子結構展示給人工智慧看,每一種結構都標示抗菌力,然後讓人工智慧去評估新化合物的抗菌效果。

-----廣告,請繼續往下閱讀-----

這種技巧稱為受監督式學習,因為人工智慧開發人員利用包含了輸入範例(即分子結構)的資料集,在這裡面,每一筆數據都單獨標示研究人員想要的輸出項目或結果(即抗菌力)。

開發人員已經把受監督式學習的技巧應用於許多處,例如創造人工智慧來辨識影像。為了這項任務,人工智慧先拿已經標示好的圖像來訓練,學著把圖像和標籤,例如把貓的照片和「貓」的標籤,聯想在一起,人工智慧把圖片和標籤的關係編碼之後,就可以正確地辨識新圖片。

貓貓!圖/Pexels

因此,當開發人員有一個資料集,其中每個輸入項目都有期望的輸出項目,受監督式學習就能有效地創造出模型,根據新的輸入項目來預測輸出項目。

不過,當開發人員只有大量資料,沒有建立關係的時候,他們可以透過不受監督式學習來找出可能有用的見解。因為網際網路與資料數位化,比過去更容易取得資料,現在企業、政府和研究人員都被淹沒在資料中。

-----廣告,請繼續往下閱讀-----

行銷人員擁有更多顧客資訊、生物學家擁有更多資料、銀行家有更多金融交易記錄。當行銷人員想要找出客戶群,或詐騙分析師想要在大量交易中找到不一致的資訊,不受監督式學習就可以讓人工智慧在不確定結果的資訊中找出異常模式。

這時,訓練資料只有輸入項目,然後工程師會要求學習演算法根據相似性來設定權重,將資料分類。舉例來說,像網飛(Netflix)這樣的影音串流服務,就是利用演算法來找出哪些觀眾群有類似的觀影習慣,才好向他們推薦更多節目;但要優化、微調這樣的演算法會很複雜:因為多數人有好幾種興趣,會同時出現在很多組別裡。

影音串流服務利用演算法,進而推薦使用者可能喜歡的節目。圖/Pexels

經過不受監督式學習法訓練的人工智慧,可以找出人類或許會錯過的模式,因為這些模式很微妙、數據規模又龐大。因為這樣的人工智慧在訓練時沒有明定什麼結果才「適當」,所以可以產生讓人驚豔的創新見解,這其實和人類的自我教育沒什麼不同——無論是人類自學或是人工智慧,都會產生稀奇古怪、荒謬無理的結果。

不管是受監督式學習法或不受監督式學習法,人工智慧都是運用資料來執行任務,以發現新趨勢、識別影像或做出預測。在資料分析之外,研究人員想要訓練人工智慧在多變的環境裡操作,第三種機器學習法就誕生了。

-----廣告,請繼續往下閱讀-----

增強式學習:需要理想的模擬情境與回饋機制

若用增強式學習,人工智慧就不是被動地識別資料間的關聯,而是在受控的環境裡具備「能動性」,觀察並記錄自己的行動會有什麼反應;通常這都是模擬的過程, 把複雜的真實世界給簡化了,在生產線上準確地模擬機器人比較容易,在擁擠的城市街道上模擬就困難得多了。

但即使是在模擬且簡化的環境裡,如西洋棋比賽,每一步都還是會引發一連串不同的機會與風險。因此,引導人工智慧在人造環境裡訓練自己,還不足以產生最佳表現,這訓練過程還需要回饋。

西洋棋比賽中的每一步會引發一連串機會與風險。圖/Pexels

提供反饋和獎勵,可以讓人工智慧知道這個方法成功了。沒有人類可以有效勝任這個角色:人工智慧因為在數位處理器上運作,所以可以在數小時或數日之內就訓練自己幾百次、幾千次或幾十億次,人類提供的回饋相比之下根本不切實際。

軟體工程師將這種回饋功能自動化,謹慎精確地說明這些功能要如何操作,以及這些功能的本質是要模擬現實。理想情況下,模擬器會提供擬真的環境,回饋功能則會讓人工智慧做出有效的決定。

-----廣告,請繼續往下閱讀-----

阿爾法元的模擬器就很簡單粗暴:對戰。阿爾法元為了評估自己的表現,運用獎勵功能,根據每一步創造的機會來評分。

增強式學習需要人類參與來創造人工智慧的訓練環境(儘管在訓練過程中不直接提供回饋):人類要定義模擬情境和回饋功能,人工智慧會在這基礎上自我訓練。為產生有意義的結果,謹慎明確地定義模擬情境和回饋功能至關重要。

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

聯經出版_96
27 篇文章 ・ 20 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。

0

0
0

文字

分享

0
0
0
海量資料萬歲?請三思!
活躍星系核_96
・2013/05/25 ・4971字 ・閱讀時間約 10 分鐘 ・SR值 616 ・十年級

-----廣告,請繼續往下閱讀-----

本文出處:Think Again: Big Data
作者:KATE CRAWFORD
譯者:Leonard Chien

圖片取自 https://team.inria.fr/zenith/ibc-seminar-patrick-valduriez-parallel-techniques-for-big-data-march-22-2pm/

「海量資料」是當今最流行的用語,也是科技界對世上各種棘手難題的萬用解答,意指藉由分析龐大資訊後,歸納出模式、精闢見解,並預測複雜問題的答案,聽來或許有些無趣,但無論是阻止恐怖份子終結貧窮拯救地球,海量資料支持者都深信可迎刃而解。

在《Big Data: A Revolution That Will Transform How We Live, Work, and Think》一書中,兩位作者寫道,「對於氣候變遷、根除疾病、促進良好治理與經濟發展等全球迫切問題,海量資料均可提供部分答案,為社會提供眾多好處」。

-----廣告,請繼續往下閱讀-----

只要握有足夠數據,例如iPhone內部資料、雜貨店購物內容、網路交友檔案、全國匿名醫療紀錄,電腦運算即可拆解這些原始資料,從中挖掘出無數見解。美國歐巴馬政府亦傾力投入,於5月9日「首開先例」,公開「過往無法取用或管理的資料」,供企業家、研究人員及大眾使用。

歐巴馬總統表示,「我們希望促成更多民間創新與發現,因此史上首次釋出大量美國資料,開放人們輕鬆取用,優秀企業家也已開發出眾多用途」。

可是海量資料的威力是否名實相符?在龐大電腦數據裡,是否真能揭露人類行為的秘密?《外交政策》雜誌邀請麻省理工學院「公民媒體中心」成員Kate Crawford,說明數字背後的真相。-編按

「只要資料足夠,數字自會說話。」

不可能。海量資料支持者希望我們相信,在程式碼字裡行間與巨大資料庫內,必有客觀及通用的見解,能解釋人類行為模式,包括消費情況、犯罪或恐怖主義行動、健康習慣、員工產能等,但他們卻總不願正視缺點。數字不會說話,資料不論規模大小,仍受人類設計限制,Apache Hadoop軟體架構等海量資料工具亦無法排除偏斜、落差與假設錯誤。當海量資料試圖歸納社會狀態,這些因素影響格外顯著,但我們卻常誤以為分析結果比個人意見更客觀。其實海量資料、個人觀感及體驗皆然,充滿偏見及盲點,可是許多人卻以為資料量越大就代表品質越好的資料,也以為「相關」與「因果」一樣好。

-----廣告,請繼續往下閱讀-----

例如社群媒體常成為海量資料分析主題,其中也確實充斥大量資訊,據稱從Twitter資料裡可見,人們離家愈遠愈開心,且情緒在每週四晚上最低落。可是我們必須懂得質疑資料背後真正的涵義,例如「皮猶研究中心」指出,美國只有16%的成年網路用戶使用Twitter,亦無法如實代表社會結構,通常年紀較輕、較集中於都會區。此外,許多Twitter帳號均為自動機器人或假檔案,近期估計總數可能高達2000萬,因此討論如何從Twitter分析輿論之前,得先釐清這些反應究竟來自真人或電腦演算式。

縱然各位相信絕大多數Twitter用戶均為真人,偏見依然存在,例如為分析2013年澳洲網球公開賽中,人們在社群媒體對哪些選手「看法最佳」,IBM透過「社會觀感指數」,大量分析Twitter訊息,結果由Victoria Azarenka奪冠,但許多訊息提到她時,都在批評濫用傷停時間,如此看來,很難相信IBM的演算式確能反映現實。

即便排除不良資料問題,演算式本身亦有偏見,新聞彙整網站取用你我的個人偏好與瀏覽紀錄,編排出用戶感興趣的最新消息,其中假設頻率與重要性呈正比,或個人社群最常分享的資訊,也必定與你興趣相符。演算式過濾龐大資料時,也訂定呈現世界的原則,一般用戶不會感受到這些規則,可是大大左右民眾觀點。

不少資訊工程專家正在努力解除疑慮,Ed Felten為普林斯頓大學教授,曾為美國聯邦貿易委員會首席科技專家,最近發起一項計畫,測驗各項演算式的偏見,尤其是美國政府也運用演算式評估個人,例如聯邦調查局與運輸安全局即彙整多項官方海量資料,列出航空旅客黑名單,做為飛安制度之用。

-----廣告,請繼續往下閱讀-----

「海量資料可提高城市智慧及效能。」

仍有上限。海量資料可提供珍貴見解,協助改善城市,但也僅止於此,由於資料生成與收集過程並不均等,其中會出現「信號問題」,造成有些民眾及社區遭到漠視或代表性不足,若以海量資料處理城市規劃問題,必須仰賴官員同時瞭解資料及其侷限。

例如美國波士頓的Street Bump應用程式裡,收集行經坑洞的駕駛人智慧型手機資料,能以低成本途徑收集資訊,類似應用程式也與日俱增,可是城市若完全依賴智慧型手機用戶提供資料,等於自動排除部分樣本,某些社區內智慧型手機用戶比例若較低,通常年齡層較高,經濟條件也較弱勢,因此遭到排擠。波士頓市政單位盡力想彌補潛在資料缺口,但假若官員對此警覺性較低,就可能忽略這項問題,導致資源分配不均,進一步擴大既有社會失衡現象。2012年Google的流感趨勢預測中,就曾犯下相同錯誤,嚴重高估年度流感比例,證明若依賴有瑕疵的海量資料,將大大影響公共服務與政策。

「開放政府」計畫將公部門資料張貼於網路上,如Data.gov或美國白宮「開放政府計畫」,也可能面臨相同問題,資料增加未必可改善透明度、責信等政府功能,必須搭配公眾參與機制,政府也得懂得如何詮釋資料,再運用適當資料因應。這些條件都不簡單,況且目前優秀的資料科學家也不足,各大學仍在趕緊劃定學科領域、編寫課程,希望能滿足需求。

人權團體也希望運用海量資料,瞭解各種衝突和危機,但資料與分析品質同樣令人存疑,麥克阿瑟基金會最近核准17.5萬美元的獎助金,由卡內基梅隆大學人權科學中心投入為期18個月的研究,分析海量資料數據如何改變人權運動發展,例如開發「可信度測驗」,以驗證張貼於Crisis MappersUshahidi、Facebook、YouTube等網站的人權侵害控訴真偽。該中心主任Jay D. Aronson指出,「包括學界及人權組織的消息來源,以及資料使用情況,都產生嚴重問題,有了這些新科技之後,對於通報者的人身安全是利或弊,許多時候仍不得而知」。

-----廣告,請繼續往下閱讀-----

「海量資料對各個社會族群一視同仁。」

未必如此。海量資料號稱客觀,因為原始資料似乎能排除社會偏見,故可減少歧視少數族群的機率,讓大規模分析避免族群歧視,但海量資料之所以存在,就是為了將個人劃入族群之中,再解釋各族群行為有何異同。例如近期一篇論文才提到,在海量資料基因體研究內,科學家如何讓個人立場左右研究方向。

如Alistair Croll所言,人們可能運用海量資料製造價格歧視,引起眾多公民權疑慮,在「個人化」名義下,海量資料卻可能用來針對特定社會族群,給予不一樣的待遇,法律通常禁止企業與個人出現此種歧視行為。企業購買網路廣告宣傳信用卡時,可能依據家戶所得或信貸紀錄,挑選特定目標群眾,導致他人完全無從得知該項優惠。Google甚至握有浮動設定內容價格的專利,例如你過往消費紀錄若顯示,可能花高價購買鞋子,下回在網路上打算買鞋時,搜尋結果也將傾向高價品。雇主如今也希望在人力資源方面運用海量資料,完全透過分析電腦使用習慣,評估如何提高員工生產力,而員工可能對這些資料與用途毫不知情。

其他因素也可能產生歧視,例如《紐約時報》曾報導,量販店Target多年前便已開始收集消費者分析數據,如今消費紀錄相當龐大,在某些情況下,甚至可單純根據消費品項歴史,判斷該名女性顧客是否懷孕,可靠度甚至高達87%。儘管該公司代表在報導內強調,這些資料是用來改善對準媽媽的行銷策略,可是這種手段很容易用於歧視,大大影響社會平等與隱私。

英國劍橋大學最近發表一項海量資料研究,運用58000則Facebook網站的按讚紀錄,預測用戶相當敏感的個人資訊,例如性傾向、族裔、宗教與政治立場、個性、智商、幸福程度、菸毒習慣、父母婚姻狀況、年齡、性別等,記者Tom Foremski指出,「取得如此敏感的資訊後,可能遭雇主、房東、政府機關、教育機構、民間組織利用,刻意歧視與懲罰個人,且對方完全無法抵抗」。

-----廣告,請繼續往下閱讀-----

海量資料也會影響執法,無論是華府德拉瓦州的新堡郡,警方都開始採用海量資料「預防巡邏」模型,希望有助調查懸案,甚至避免犯罪發生,可是若將警力集中在海量資料判斷出的潛在犯罪熱點,卻可能強化某些社會族群的污名,認為他們較可能犯案,也等於將區域警力落差視為常態。一名警官曾表示,雖然預防巡邏演算式刻意避免種族、性別等分類,但若隨意使用這些系統,又未察覺差別待遇可能造成的後果,將會造成「警察與社區關係惡化,欠缺程序正義、遭指控種族歧視,也威脅執法基礎」。

「海量資料屬匿名,不會侵犯隱私。」

大錯特錯。許多海量資料供應者都盡其所能,希望避免個人身分曝光,但風險卻仍存在,大量手機資料或許看似匿名,但近期研究歐洲150萬手機用戶資料顯示,只要四點參考點,即可辨識95%的民眾。研究人員提到,人們往來城市路徑有其獨特性,又能以大量公開資料組推論,讓隱私「疑慮愈來愈強烈」。拜Alessandro Acquisti等學者之賜,只要交叉分析公開資料,即可預測個人社會安全碼。

可是海量資料的隱私問題,不只是一般身分辨識風險,目前醫療資料轉售給分析公司後,可能用來追蹤個人身分,許多人都在討論個人化醫學,希望藥品及其他療程能夠針對個人需求,讓治療效果如同取自個人DNA。此舉可改善療效,但基本上得辨識人體分子和基因,假若使用不當或外流,可能造成高風險。儘管RunKeeperNike+等個人健康資料收集裝置迅速增加,尚無太多海量資料實際改善醫療服務的案例。

海量資料能源計畫亦收集各種私密資訊,智慧電力網即為一例,分析龐大消費者用電量資料後,希望改善住家與企業能源配送效能,雖然前景可期,隱私風險也很高,不僅可預測能源用量及需用時間,亦包括住戶在家中動向及行為的時刻資訊,例如何時洗澡、客人何時離開、何時關燈睡覺。

-----廣告,請繼續往下閱讀-----

這些充滿個人資訊的海量資料,自然成為駭客及洩露情報者下手的目標,「維基解密」為近期釋出海量資料的知名案例,此外,英國境外金融產業資料最近也大量曝光,顯見人們不論貧富,個人資料都可能公諸於世

「海量資料是科學的未來。」

部分屬實,但仍在持續發展。海量資料確實提供科學發展的新方向,例如在發現希格斯玻子的過程中,歐洲核子研究組織CERN即運用Hadoop分散式檔案系統管理資料,可是除非我們正視及處理海量資料反映人類生活的缺陷,就可能依據錯誤假設做出重大公共政策及企業決定。

為處理此事,資料科學家開始與社會科學家合作,因為後者處理資料的經驗相當豐富,包括評估來源、資料收集方式、使用倫理等,發掘結合海量資料策略與少量資料研究的新方式,不只是需要焦點團體、A/B測試等廣告行銷策略。新混成方式能思考行為背後的成因,而不只是計算事物發生頻率,故除了資訊檢索與機器學習,也需要社會學分析及民族誌學見解。

科技公司很早就明白,社會科學家能協助解釋消費者與產品互動的方式,例如PARC就曾聘請知名人類學家Lucy Suchman,資訊工程、統計、社會科學等領域未來將更密切合作,不僅是為測試彼此研究所得,也要以更嚴謹的態度提出各種問題。

-----廣告,請繼續往下閱讀-----

每天各方都收集關於你我的大量資料,包括Facebook點擊習慣、衛星定位資料、醫療處方、Netflix影片觀賞紀錄等,我們必須盡早決定可託付資料的對象及用途。資料永遠不可能中立,也很難匿名,但我們可運用各項專業領域,以察覺種種偏見、落差與假設,進而面對有關隱私及公平性的新挑戰。

 

本文原發表於譯者部落格「我書

文章難易度
活躍星系核_96
752 篇文章 ・ 125 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia