0

0
0

文字

分享

0
0
0

從無知到無敵:AlphaGo Zero 是怎麼辦到的?

果殼網_96
・2017/11/13 ・2402字 ・閱讀時間約 5 分鐘 ・SR值 530 ・七年級
  • 作者/開明|Nature 市場專員,喜歡可愛的動物、美味的咖啡,和深度的旅行。

人工智慧棋手 AlphaGo 先後戰勝了兩位頂尖圍棋高手李世乭和柯潔。在這場猛烈風暴席捲了世界後,AlphaGo 宣布不再和人下棋。但它的製造者並没有因此停下腳步,AlphaGo 還在成長,今天 Deepmind 又在《自然》期刊上發表了關於 AlphaGo 的新論文。

圍棋中有超過 10 的 170 次方種變化,這比已知宇宙中所有的原子數量加在一起還要多,圖/by DeepMind

這篇論文中的 AlphaGo 是全新的、它不是戰勝柯潔的那個最强的 Master,但卻是它的孿生兄弟。它的名字叫 AlphaGo Zero,是AlphaGo 的最新版本。

和以前的 AlphaGo 相比,它:

  • 從零開始學習,不需要任何人類的經驗
  • 使用更少的算力得到了更好的结果
  • 發現了新的圍棋定式
  • 將策略網路和值網路合併
  • 使用了深度殘差網路
  • 白板理論(Tabula rasa)

哲學上有種觀點認為,嬰兒生下來是白板一塊,通過不斷訓練、成長獲得知識和智力。

作為 AI 領域的先驅,圖靈使用了這個想法。在提出了著名的「圖靈測試」的論文中,他從嬰兒是一塊白板出發,認為只要能用機器製造一個類似小孩的 AI,然後加以訓練,就能得到一個近似成人智力,甚至超越人類智力的 AI。

現代科學了解到的事實並不是這樣,嬰兒生下來就有先天的一些能力,他們偏愛高熱量的食物,餓了就會哭鬧希望得到注意。這是 DNA 在億萬年的演化中學来的。

監督和無監督學習

計算機則完全不同,它沒有億萬年的演化,因此也没有這些先天的知識,是真正的「白板一塊」。監督學習和無監督學習(Supervised & Unsupervised Learning)是鏡子的兩面,兩者都想解决同一個問題——如何讓機器從零開始獲得智慧?

監督學習認為人要把自己的經驗教给機器。拿分辨猫猫和狗狗的 AI 來說,你需要準備幾千張照片,然後手把手教機器——哪張照片是猫,哪張照片是狗。機器會從中學習到分辨猫狗的细節,從毛髮到眼睛到耳朵,然後舉一反三得去判斷一張它從沒見過的照片是猫猫還是狗狗。

而無監督學習認為機器要去自己摸索,自己發現規律。人的經驗或許能幫助機器掌握智慧,但或許人的經驗是有缺陷的,不如讓機器自己發現新的,更好的規律。人的經驗就放一邊吧。

這展示的是包含 20 個神經網路模塊的 AlphaGo Zero 版本,在訓練的不同階段進行的 3 盤左右互搏棋局的前 80 步,動畫在,圖/by DeepMind。

從無知到無敵

就像這篇新論文中講述的那樣。AlphaGo Zero 是無監督學習的產物,而它的雙胞胎兄弟 Master 則用了監督學習的方法。在訓練了 72 小時後 AlphaGo Zero 就能打敗戰勝李世乭的 AlphaGo Lee,相比較 AlphaGo Lee 訓練了幾個月。而 40 天後,它能以 89:11 的成積,將戰勝了所有人類高手的 Master 甩在後面。

圖靈的白板假設雖然無法用在人身上,但是 AlphaGo Zero 證明了,一個白板 AI 能夠被訓練成超越人類的圍棋高手。

强化學習

强化學習(Reinforcement Learning)是一種模仿人類學習方式的模型,它的基本方法是:要是機器得到了好的结果就能得到獎勵,要是得到差的结果就得到懲罰。AlphaGo Zero 並没有像之前的兄弟姐妹一樣被教育了人類的圍棋知識。它只是和不同版本的自己下棋,然後用勝者的思路来訓練新的版本,如此不斷重複。

這個圖片展示的是包含 40 個神經網路模塊的 AlphaGo Zero 版本自學成才的過程。3 天超過打敗李世乭的 AlphaGO Lee,21 天超過打敗柯潔的 AlphaGo Master。自學 40 天之後就超過了所有其他的 AlphaGo 版本,動畫在這裡。圖/by DeepMind。

通過這一方法,AlphaGo Zero 完全自己摸索出了開局,收官,定式等以前人類已知的圍棋知識,也摸索出了新的定势。

算法和性能

如何高效合理得利用計算資源?這是算法要解决的一個重要問题。AlphaGo Lee 使用了 48 個 TPU,更早版本的 AlphaGo Fan 使用了 176 個 GPU,而 Master 和 AlphaGo Zero 僅僅用了 4 個 TPU,也就是說一台電腦足夠!

AlphaGo Zero 在 72小時内就能超越 AlphaGo Lee 也表明,優秀的算法不僅僅能降低能耗,也能極大提高效率。另外這也說明,圍棋問題的複雜度並不需要動用大規模的計算能力,那只是浪費。


憑借硬件性能的不斷升级和算法的不斷優化,AlphaGo 後期版本的運算效率明顯優於最初的版本,圖/by DeepMind

AlphaGo Zero 的算法有兩處核心優化:將策略網路(計算下子的概率)和值網路(計算勝率)這兩個神經網路结合,其實在第一篇 AlphaGo 的論文中,這兩種網路已經使用了類似的架構。另外,引入了深度殘差網路(DeepResidual Network),比起之前的多層神經網路效果更好。

Deepmind 的歷程

DeepMind 創始人之一,德米斯・哈薩比斯(Demis Hassabis),圖/果壳网提供。

這不是 Deepmind 第一次在《自然》期刊上投稿,他們還發表過《利用深度神經網路和搜索樹的圍棋 AI》和《AI 電腦遊戲大師》等幾篇論文。

我們可以從中一窺 Deepmind 的思路,他們尋找人類還没有理解原理的遊戲,遊戲比起現實世界的問題要簡單很多。然後他們選擇了兩條路,一條道路是優化算法,另外一條道路是讓機器不受人類先入為主經驗的影響。

這兩條路交匯的终點,是那個超人的 AI。

DeepMind創始人之一,大衛・席爾瓦(David Silver),圖/果壳网提供。

結語

這是 AlphaGo 的终曲,也是一個全新的開始,相關技術將被用於造福人類,幫助科學家認識蛋白質折疊,製造出治療疑難雜症的藥物,開發新材料,以製造以出更好的產品。(編輯:明天)

本文版權屬於果殼網(微信公眾號:Guokr42),原文為〈零開始,全憑自學,它用 40 天完虐 AlphaGo!〉,禁止轉載。如有需要,請聯繫sns@guokr.com


數感宇宙探索課程,現正募資中!

文章難易度
果殼網_96
108 篇文章 ・ 5 位粉絲
果殼傳媒是一家致力於面向公眾倡導科技理念、傳播科技內容的企業。2010年11月,公司推出果殼網(Guokr.com) 。在創始人兼CEO姬十三帶領的專業團隊努力下,果殼傳媒已成為中國領先的科技傳媒機構,還致力於為企業量身打造面向公眾的科技品牌傳播方案。


0

0
0

文字

分享

0
0
0

「你不要過來啊!」蜘蛛為了在交配中保命,竟然把自己給射出去了!

Peggy Sha
・2022/05/18 ・1686字 ・閱讀時間約 3 分鐘

自然界中,充滿了不少為了交配而「慷慨赴義」的勇者,像是:螳螂、蜘蛛等等,在激戰中或激戰後,雄性會變成配偶的盤中飧,如此一來,不僅可以延長交配時間、增加受精機率,還能為雌性提供養分,讓後代更有機會健康快樂地成長!(讓我們感謝飛天小爸爸的努力!)

「性食同類」不僅可以延長交配時間、增加受精機率,還能為雌性提供養分,讓後代更有機會健康快樂地成長!圖/Pixabay

這種現象呢,被稱之為「性食同類」(sexual cannibalism),通常是雌性吃掉雄性的比例稍微高一些。

但正如俗話所說,「生命會自己找到出口」,竟然有雄性蜘蛛靠著把自己「射」出去來保下一命!今天,就要來為你講述,隆背菲蛛(Philoponella prominens)的噴射故事。

交配到一半就彈出去了?超離奇高速彈射之謎!

這次的主角隆背菲蛛呢,是一種原產於日本、韓國等地的社會性動物,過去驚人的成就包括:能夠一次聚集 300 多隻同伴,共同編織出一片大網。

至於牠們超強的彈射能力又是如何被發現的?原先,來自湖北大學的張士昶副教授與團隊正在研究隆背菲蛛的性行為,卻忽然發現了一個超離奇現象:完成交配之後,雄蛛居然會猛然彈開,「biu」地一下就飛得老遠!

這驚人的過程可說是快到不可思議,最高紀錄達到一秒 88.2 公分,別說是肉眼,就連普通相機都沒辦法正確紀錄下細節。

這個現象立刻引發了研究團隊的好奇心,那麼接下來該怎麼辦呢?當然是:交配大戰看起來!

射,還是不射?這是個攸關性命的問題!

為了進行研究,團隊總共觀察了 155 次交配行為,並在其中 152 次中觀察到了這種超高速的彈射情形。你可能會很好奇,那剩下的 3 次呢?嗯……那 3 隻隆背菲蛛沒有成功彈射出去,交配後就成了配偶的大餐了。

什麼?沒彈掉就會被吃掉?這究竟是巧合還是命運的安排?

研究人員決定出手人為干預一下,他們選了 30 隻隆背菲蛛,然後想辦法阻止牠們彈射,結果發現:「彈射=保命」,要是你射不出去,那你就逃不過配偶的大口,注定要變成人家的晚餐。

要是隆背菲蛛彈射失敗,那就逃不過配偶的大口,注定要變成人家的營養來源。圖/Pixabay

相反地,如果成功彈出去了,那麼,你不但可以保命,也多了再次交配的機會。嘿,沒錯,牠們彈出去後還會再爬回來交配,再彈、再爬、再交配,就如此反反覆覆。(當然啦,有時也會在過程中不小心弄掉一些身體部位,比如一兩支步足。)

想要成功噴射,你需要一對強壯的步足!

至於為何隆背菲蛛能變成這樣的飛天小蜘蛛呢?秘密就藏在牠們的步足中。研究團隊發現,雄蛛們會將第一對步足抵在雌蛛身上,一旦交配完成,就用力蹬腳彈射出去。

根據實驗,科學家們發現這對步足可說是噴射與交配關鍵,少了一支都不行,只要沒有這對秘密武器,雄蛛只會停留在求偶階段,但不會真的跟雌蛛交配。但如果掉的是其他幾支腳,那可完全不會影響交配過程,還是能順利完成生育大計。

而這對秘密武器最強大的地方,其實是來自液壓;只要蜘蛛擠壓胸部的肌肉,便可以將其中的體液注入特定關節(tibia–metatarsus joint),透過液壓來伸直步足、產生彈力。

沒想到吧?為了在交配中保命,隆背菲蛛還得運用到流體力學,是不是很有趣呢?

參考資料:

Male spiders avoid sexual cannibalism with a catapult mechanism: Current Biology
These male spiders catapult away to avoid being cannibalized after sex
Watch These Male Spiders Jump Like Hell to Avoid Being Eaten After Sex
This Male Spider Catapults Itself Into the Air to Avoid Sexual Cannibalism | Science| Smithsonian Magazine
台灣物種名錄


數感宇宙探索課程,現正募資中!

Peggy Sha
9 篇文章 ・ 7 位粉絲
曾經是泛科的 S 編,來自可愛的教育系,是一位正努力成為科青的女子,永遠都想要知道更多新的事情,好奇心怎樣都不嫌多。