0

0
0

文字

分享

0
0
0

Eugene Goostman 程式真的通過了圖靈測試嗎?

程式人雜誌
・2014/06/11 ・2966字 ・閱讀時間約 6 分鐘 ・SR值 572 ・九年級

SN7TvUG

前言

2014 年 6 月 9 日,我看到 inside 網站中有人發布了一個訊息 「電腦首度通過圖靈測試(36kr.com)」。 我的直覺反應是,這件事情勢必有假,於是一路追了下去。

Inside 的訊息其實是轉貼自 36氪這個來自中國的網站, 36氪網站的文章標是 「计算机首次通过图灵测试」

不仔細看文章的人,很可能會被誤導,認為電腦已經可以成功得欺騙人類,讓人以為他是一個真人,而且比率達到和真人一樣的水準,也就是「人類已經無法正確區分文字交談的對象到底是電腦還是人類了」。

但是、這樣的想法是錯的,文章中所說的 Eugene Goostman 這個軟體其實並沒有達到「完全能欺騙人類」的水準,因為他們所說的圖靈測試,和我所認知的圖靈測試,根本就是不同的東西。

圖靈測試是甚麼?

36氪文章中所說的 「图灵测试」 ,其實有連結到百度百科。百度百科裏對圖靈測試的描述如下:

图灵测试是测试人在与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。问过一些问题后,如果被测试者超过30%的答复不能使测试人确认出哪个是人、哪个是机器的回答,那么这台机器就通过了测试,并被认为具有人类智能。

但是、我所認知的圖靈測試,並不是採用 30% 誤判率為基準的,而是應該達到「和人類被誤判為電腦」一樣的水準。換句話說,假如程式偽裝的和真人一樣好的話,那麼應該要符合下列的表格要求。

判斷者的決定交談對象為人類交談對象為電腦程式
判斷為人比率為 P (正確判斷)比率大於或等於為 P (欺騙成功)
判斷為電腦比率為 1-P (誤判人為電腦)比率小於或等於為 1-P (欺騙失敗)

因此、對於上述新聞中所說的,「计算机首次通过图灵测试」 這件事情,其實是採用 30% 的欺騙成功率,這是我們認為該宣稱有問題的關鍵原因。

但是、為甚麼測試單位「英國雷丁大學」要採用 30% 做為圖靈測試是否通過的標準呢?我想原因應該來自於「圖靈」本人在那篇名為 「COMPUTING MACHINERY AND INTELLIGENCE 」的文章中所提到的一個預估,原文如下:

I believe that in about fifty years’ time it will be possible to programme computers, with a storage capacity of about 10^9, to make them play the imitation game so well that an average interrogator will not have more than 70 percent chance of making the right identification after five minutes of questioning. … I believe that at the end of the century the use of words and general educated opinion will have altered so much that one will be able to speak of machines thinking without expecting to be contradicted.

在上文當中「圖靈」預估 50 年後,一個一般的詢問者經過5分鐘的詢問之後,只有不到70%的機率能正確指認被詢問者是電腦還是人。於是「英國雷丁大學」就把這個預估當成圖靈測試的基準了。

但是、這只是圖靈的一個預估,並不代表圖靈測試就應該定為成功的欺騙過 30% 的人啊! (而且這也不是學術界對圖靈測試的一個共識)。

測試單位的英文公告

36氪的 「计算机首次通过图灵测试」 一文中指出了訊息來源為「英國雷丁大學的新聞稿」,連結如下:

TURING TEST SUCCESS MARKS MILESTONE IN COMPUTING HISTORY

該新聞稿提到 Eugene Goostman 這個程式通過圖靈測試的語句如下:

The 65 year-old iconic Turing Test was passed for the very first time by supercomputer Eugene Goostman during Turing Test 2014 held at the renowned Royal Society in London on Saturday.

但新聞稿的後面有寫出測試方法的描述:

  1. Simultaneous tests as specified by Alan Turing
  2. Each judge was involved in five parallel tests – so 10 conversations
  3. 30 judges took part
  4. In total 300 conversations
  5. In each five minutes a judge was communicating with both a human and a machine
  6. Each of the five machines took part in 30 tests
  7. To ensure accuracy of results, Test was independently adjudicated by Professor John Barnden, University of Birmingham, formerly head of British AI Society

我對這個測試方法的解讀如下:

  1. 圖靈測試:電腦程式是否能成功的透過文字交談欺騙人類,偽裝自己是個人。
  2. 每個「判斷者」都會分別判斷五組「人+電腦」的配對,也就是總共進行 10 次的對話。
  3. 總共有 30 位判斷者參與。
  4. 總共有 30*10=300 場的交談。
  5. 在五分鐘內,「判斷者」會與一組「人和機器」分別交談。
  6. 五組「電腦程式」都會與 30 位「判斷者」談過一次。
  7. 為了確認「判斷者」判斷結果為正確或錯誤, John Barnden 教授會監控並確認結果。

問題在哪裡?

我認為「英國雷丁大學發布的新聞稿」用詞有欠妥當,主要是因為下列語句實在是太過強烈:

The 65 year-old iconic Turing Test was passed for the very first time by supercomputer Eugene Goostman during Turing Test 2014 held at the renowned Royal Society in London on Saturday.

雖然新聞稿後面有交代 Eugene Goostman 程式成功的欺騙過 33% 的判斷者,但是沒有看完全文的人還是很容易被誤導的。

If a computer is mistaken for a human more than 30% of the time during a series of five minute keyboard conversations it passes the test. No computer has ever achieved this, until now. Eugene managed to convince 33% of the human judges (30 judges took part – see more details below) that it was human.

而 36氪網站直接把 「计算机首次通过图灵测试」 拿來當標題,則是進一步的誤導了大家, 雖然 36氪有超連結指向 百度的圖靈測試定義 ,但是這個定義顯然與一般人的認知不同,應該要強調一下才對,不應該企圖用聳動性的標題吸引目光。

最後、 inside 的轉載 「電腦首度通過圖靈測試(36kr.com)」 這篇,雖然有指出來源的 36氪網站文章,不過我想轉貼的人或許沒有仔細想過到底文章中的「通過圖靈測試」到底是甚麼意義,也沒想過這樣可能會誤導讀者,造成錯誤科學訊息的傳播問題。

以前的程式表現如何?

事實上、能夠成功欺騙人類,讓某些人認為對方是真人的交談程式,在人工智慧的歷史上很早就出現過了。

遠在 1966 年時,Joseph Weizenbaum 就曾經創造出一個稱為 ELIZA 的程式,該程式採用了非常簡單的字串比對方法,結果竟然讓不少交談者認為 ELIZA 是個真人,以下是維基百科對 Eliza 程式的描述網址:

http://en.wikipedia.org/wiki/ELIZA

在 2013 年 8 月號的程式人雜誌當中,筆者也在文章中展示了一個自己寫的「中文版 Eliza 聊天程式」,有興趣的朋友也可以閱讀該文章順便瞭解這種程式是怎麼做的。

JavaScript (8) – 中文版 Eliza 聊天程式

另外、在 2011 年時有一個稱為 Cleverbot 的程式 曾經創造過成功欺騙 60% 判斷者的紀錄,這個紀錄比這次比賽第一名的 Eugene Goostman 程式還要高。因此我們真的很難用「電腦首度通過圖靈測試」這樣的語句來描述這次比賽的結果,甚至這次比賽到底是否有創了什麼記錄都是很難確定的。

所以、我真的覺得這樣的訊息是過於聳動了,因此特別寫了這篇文章來提醒大家,避免很多人會被這些訊息誤導。

我的感想

從這個案例中,我們可以看到在網路訊息發達的今天,要能夠不被誤導,恐怕必須要有很強的判斷力與追根究柢的精神,但是在這個訊息多如牛毛的世界中,錯誤與聳動的訊息往往傳播的特別快,這恐怕是網路世界亟待解決的問題之一啊!

最後、我上 g0v 的新聞小幫手 去檢舉了這個新聞,希望能讓誤導的情況稍微降低一下,檢舉網址如下:

http://newshelper.g0v.tw/index/log/1819

參考文獻

轉載自程式人雜誌

相關標籤: 圖靈測試 電腦
文章難易度
程式人雜誌
10 篇文章 ・ 0 位粉絲
程式人雜誌是一個結合「開放原始碼與公益捐款活動」的雜誌,簡稱「開放公益雜誌」。開放公益雜誌本著「讀書做善事、寫書做公益」的精神,我們非常歡迎程式人認養專欄、或者捐出您的網誌。


0

0
0

文字

分享

0
0
0

解析「福衛七號」的觀測原理——它發射升空後,如何讓天氣預報更準確?

科技大觀園_96
・2021/10/25 ・2915字 ・閱讀時間約 6 分鐘

2019 年 6 月 25 日,福爾摩沙衛星七號(簡稱福衛七號)在國人的引頸期盼下升空。一年多來(編按:以原文文章發佈時間計算),儘管衛星還沒有全部轉換到預定的軌道,但已經回傳許多資料,這些資料對於天氣預報的精進,帶來很大的助益。中央大學大氣系特聘教授黃清勇及團隊成員楊舒芝教授、陳舒雅博士最近的研究主題,就是福衛七號傳回的資料,對天氣預報能有哪些改善。

掩星觀測的原理

要介紹福衛七號帶來的貢獻,得先從它的上一代──福衛三號說起。福衛三號包含了 6 顆氣象衛星,軌道高度 700~800 公里,以 72 度的傾角繞著地球運轉(繞行軌道與赤道夾角為 72 度)。這些衛星提供氣象資訊的方式,是接收更高軌道(約 20,200 公里)的 GPS 衛星所放出的電波,這些電波在行進到氣象衛星的路程中,會從太空進入大氣,並產生偏折,再由氣象衛星接收。換句話說,氣象衛星接收到的電波並不是走直線傳遞來的,而是因為大氣的折射,產生了偏折,藉由偏折角可推得大氣資訊。

▲低軌道衛星(如福衛三號)持續接收 GPS 衛星訊號,直到接收不到為止,整個過程會轉換成一次掩星事件,讓科學家取得大氣溫濕度垂直分佈。圖/黃清勇教授提供

氣象衛星會一邊移動,一邊持續接收電波,直到接收不到為止,在這段過程中,電波穿過的大氣從最高層、較稀薄的大氣,逐漸變為最底層、最接近地面的大氣,科學家能將這段過程中每一層大氣所造成的偏折角,通過計算回推出折射率,而折射率又和大氣溫度、水氣、壓力有關  ,因此可再藉由每個高度的大氣折射率,得出溫濕度垂直分布,這種觀測方式稱為「掩星觀測」。掩星觀測所得到的資料,可以納入數值預報模式,進一步做各種預報分析。 

資料同化──觀測與模式的最佳結合

在將掩星觀測資料納入數值預報模式時,必須先經過「資料同化」的過程。數值預報模式內含動力方程式,可以模擬任何一個位置的氣塊的運動,但是因為大氣環境非常複雜,模擬時不可能納入全部的動力條件,因此模擬結果不一定正確。而另一方面,掩星觀測資料提供的是真實觀測資訊,楊舒芝形容:「觀測就像拿著照相機拍照,不管什麼動力方程式,拍到什麼就是什麼。」但是,觀測的分布是不均勻的—唯有觀測過的位置,我們才會有觀測資料。

所以,我們一手擁有分布不均勻但很真實的觀測資料,另一手擁有很全面但可能不太正確的模式模擬。資料同化就是結合這兩者,找到一個最具代表性的大氣初始分析場,再以這個分析場為起點,去做後續的預報。資料同化正是楊舒芝和陳舒雅的重點工作之一。 

中央大學分別模擬 2010 年梅姬颱風和 2013 年海燕颱風的路徑,發現加入福三掩星觀測資料之後,可以降低颱風模擬路徑的誤差。圖/黃清勇教授提供

由於掩星觀測取得的資料與大氣的溫度、濕度、壓力有密切關係,因此在預報颱風、梅雨或豪大雨等與水氣量息息相關的天氣時,帶來重要的幫助。黃清勇的團隊針對福衛三號的掩星觀測資料對天氣預報的影響,做了許多模擬與研究,發現在預測颱風或氣旋生成、預報颱風路徑,以及豪大雨的降雨區域及雨量等,納入福衛三號的掩星觀測資料,都能有效提升預報的準確度。

黃清勇進一步說明,由於颱風都是在海面上生成的,而掩星觀測技術仰賴的是繞著地球運行的衛星來收集資料,相較於一般位於陸地上的觀測站,更能夠取得海上大氣資料,因此對於預測颱風的生成有很好的幫助。另一方面,這些資料也能幫助科學家掌握大氣環境,例如對於太平洋高壓的範圍抓得很準確,那麼對颱風路徑的預測自然也會更準。根據團隊的研究,加入福衛三號的掩星觀測資料,平均能將 72 小時颱風路徑預報的誤差減少約 12 公里,相當於改進了 5%。

豪大雨的預測則不只溫濕度等資訊,還需要風場資訊的協助,楊舒芝以 2008 年 6 月 16 日臺灣南部降下豪大雨的事件做為舉例,一般來說豪大雨都發生在山區,但這次的豪大雨卻集中在海岸邊,而且持續時間很久。為了找出合理的預測模式,楊舒芝探討了如何利用掩星觀測資料來修正風場。 

從 2008 年 6 月 16 日的個案發現,掩星資料有助於研究團隊掌握西南氣流的水氣分佈。上圖 CNTL 是未使用掩星資料的控制組,而 REF 和 BANGLE 皆有加入掩星資料(同化算子不一樣),有掩星資料可明顯改善模擬,更接近觀測值(Observation)。圖/黃清勇教授提供

福衛七號接棒觀測

隨著福衛三號的退休,福衛七號傳承了氣象觀測的重責大任。福衛七號也包含了 6 顆氣象衛星,不過它和福衛三號有些不同之處。

福衛三號是以高達 72 度的傾角繞著地球運轉,取得的資料點分布比較均勻,高緯度地區會比低緯度地區密集一些。相較之下,福衛七號的傾角只有 24 度,它所觀測的點集中在南北緯 50 度之間,對臺灣所在的副熱帶及熱帶地區來說,密集度更高;加上福衛七號收集的電波來源除了美國的 GPS 衛星,還增加了俄國的 GLONASS 衛星,這些因素使得在低緯度地區,福衛七號所提供的掩星觀測資料將比福衛三號多出約四倍,每天可達 4,000 筆。

福衛三號與福衛七號比較表。圖/fatcat 11 繪

另一方面,福衛七號的軟硬體比起福衛三號更加先進,可以獲得更低層的大氣資料,而因為水氣主要都集中在低層,所以福衛七號對水氣掌握會比福衛三號更具優勢。

從福衛三號到福衛七號,其實模式也在逐漸演進。早期的模式都是納入「折射率」進行同化,而折射率又是從掩星觀測資料測得的偏折角計算出來的。「偏折角」是衛星在做觀測時,最直接觀測到的數據,相較之下,折射率是計算出來的,就像加工過的產品,一定有誤差。因此,近來各國學者在做數值模擬時,愈來愈多都是直接納入偏折角,而不採用折射率。黃清勇解釋:「直接納入偏折角會增加模式計算的複雜度,也會增加運算所需的時間,而預報又是得追著時間跑的工作,因此早期才會以折射率為主。」不過現在由於電腦的運算能力與模式都已經有了進步,因此偏折角逐漸成為主流的選擇。 

由左至右依序為,楊舒芝教授、黃清勇特聘教授、陳舒雅助理研究員。圖/簡克志攝

福衛七號其實還沒有全部轉換到預定的軌道,不過這一年多來的掩星觀測資料,已經讓中央氣象局對熱帶地區的天氣預報,準確度提升了 4~10%;陳舒雅也以今年 8 月的哈格比颱風為案例,成功地利用福衛七號的掩星觀測資料,模擬出哈格比颱風的生成。

除了福衛七號,還有一顆稱為「獵風者」的實驗型衛星,預計 2022 年將會升空。獵風者的任務是接收從地表反射的 GPS 衛星電波,然後推估風速。可以想見,一旦有了獵風者的加入,我們對大氣環境的掌握度勢必更好,對於颱風等天氣現象的預報也能更加準確。就讓我們一起期待吧!

科技大觀園_96
156 篇文章 ・ 375 位粉絲
為妥善保存多年來此類科普活動產出的成果,並使一般大眾能透過網際網路分享科普資源,科技部於2007年完成「科技大觀園」科普網站的建置,並於2008年1月正式上線營運。 「科技大觀園」網站為一數位整合平台,累積了大量的科普影音、科技新知、科普文章、科普演講及各類科普活動訊息,期使科學能扎根於每個人的生活與文化中。
網站更新隱私權聲明
本網站使用 cookie 及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策