0

1
0

文字

分享

0
1
0

Hey Siri! 機器為什麼能聽得懂人話?語音技術的前世今生與未來

研之有物│中央研究院_96
・2018/06/14 ・5138字 ・閱讀時間約 10 分鐘 ・SR值 545 ・八年級

  • 整理報導|莊崇暉 美術編輯|張語辰

「天下沒有兩句話的聲音數據是一樣的!」人類語言的聲音數據千變萬化,同一個人說同一句話兩次,其數據絕對差很多;這是發展語音技術的最主要困難點。

好在人類語言有結構,因此語音技術必須透視聲音的結構。本文整理中研院李琳山院士在講座中的演講精華,一同了解華語語音技術的前世、今生並展望來生。

李琳山是臺灣研究語音技術的先行者,也是全球研究華語語音技術的拓荒者,一路看著「華語語音技術」由誕生、成長到茁壯。 攝影/張語辰

中央研究院李琳山院士演講的這一天,已經是臺北連續第五天微雨。前往會場的路上,你可能會問 Siri 明天天氣如何,並於一秒後聽到她回覆:「陰天,22 度」,還附上參考網址。究竟機器是如何聽懂人話的?

「語音技術,即是藉由機器處理語音訊號的數據。」李琳山開場時表示,人的語言的聲音是聲波,用麥克風收下來變成訊號後成為時間函數,再把任一小段「聲波波形」轉變成「實數序列」,也就是數據,再進行分析處理。

語音技術的最主要困難點,在於「聲波波形」的千變萬化。

例如,李琳山展示某一個人說一句話「到不到臺灣大學」的聲波,發現句中兩個「到」字聲波長得完全不一樣、音高也很不同,「天下沒有兩句話是一樣的!」

此外,我們熟知的是華語中有很多同音字,如說到「今」、「天」時,為什麼不會認為前者是黃金的「金」?李琳山解釋,聲音的訊號是有結構的,人腦中有類似辭典及文法、還有遠遠更為複雜的知識,我們會根據這些知識及前後文判斷出正確文字。因此,語音技術必須透視聲音的結構。

要讓電腦像人一樣,學會「聽」和「說」人類語言有多難?得從華語語音技術的前世說起。

語音技術前世:口齒不清牙牙學語的機器

1980 年,李琳山剛取得博士學位不久,回到臺灣。當時製作一份中文文件,得使用嵌有幾千個鉛字的大鍵盤中文打字機,臺北街頭還有不少打字行在徵求打字員。當時很多人思考:中文字輸入機器真的這麼困難嗎?並提出了許多解決方案,例如字根法、注音符號法等。李琳山則想著是否可以用「聲音」輸入中文。但是,以當時技術及臺灣的研究環境而言,他說:「太難了」。

1990 年代的中文鉛字打字機,現存於德國慕尼黑大學漢學院。 資料來源/Wikipedia [CC BY-SA 3.0]
為了實現用「聲音」輸入中文,構想之初,李琳山認為華語是一字一音,音的總數有限,頂多一千多個,讓機器學會聽這一千多個音,應該就可以用聲音來輸入文字。不過事情沒有想像中簡單,因為透過文獻發現,當時連英語語音輸入的技術都尚在極為原始的階段。因此,李琳山決定先教電腦「說華話」,但即使做出所有的一千多個音、拼成句子,機器發出來的音仍然不知所云。

李琳山百思不得其解:人說話不就是把這些音拼起來嗎?為什麼機器拼的聽起來不知所云?直到 1983 年,聽到一位語言學家的專業建議,李琳山開始尋找華語語句中每個字發音的「調整抑揚頓挫的一般性規則」。

華語語句中每個字只要前後字不同,就會有不同的抑揚頓挫,也就是音高、音量、音長和停頓的變化。

看來,唯一辦法是從數據中找答案。李琳山決定土法煉鋼,造出一堆句子並錄音,透過人工手動分析,確實慢慢發現若干一般性規則。

舉例:「我有好幾把小雨傘」一句中每個字都是第三聲,就有複雜的第三聲相連規則。一般熟知的是兩個第三聲相連時,前面那個會變二聲,例如「總統」。 資料來源/李琳山 圖說重製/張語辰

李琳山分析上圖這句話的文法結構,發現各個字之間有各種不同的文法結構邊界,原來前述三聲變化規則可以橫跨某些邊界,但不能橫跨其他邊界。如此一來就有答案了。把全部規則兜起來以後,再讓電腦用單音拼成一句話,並照規則調整每個字的抑揚頓挫,此時電腦雖然有點口齒不清,但大致能聽得懂電腦在說什麼了。

1984 年,短短一年後,口齒不清的電腦成為全球首台能說出華語的機器。李琳山给它一個很直白的名稱:「電腦說國語」,此套系統只要輸入文字或注音,就可以輸出聲音。由於聲音還是不太入耳,李琳山的研究團隊三年後改良出更好的系統,甚至能表演相聲,展現豐富的抑揚頓挫,例如下面音檔示範:

「電腦說語音」技術研發故事(演講現場播放)

 

李琳山之後開始想訓練機器聽華語。他提出三個基本假設,試圖讓華語語音辨識(Speech recognition)的問題變得比較可以解決。

首先,一次只輸入一個音就好,也就是一字一字「斷開」輸入,藉此避免連續語句中不同的前後字影響,造成不同的聲音訊號變化的問題。第二,每一位使用者自己說話訓練機器聽他的聲音,也就是要避免不同說話者的「音質」、「口音」等等差異。第三,辨識過程中一定會出現錯誤,讓人工操作軟體來更正就是了。這三個假設讓問題比較有機會解決。

機器操作時,需要當年看來極為龐大的運算能力,也需要複雜的硬體電路支援,然而因為當時軟體的計算能力太弱了,而不同的硬體電路拼湊困難始終不成功,後來李琳山決定傾盡研究室的財力,自國外購買平行運算電腦(transputer),終於在 1992 年完成第一部語音辨識系統,命名為「金聲一號 」(Golden Mandarin I)。這是全球首見的華語語音輸入系統,但一次只能輸入一個字,且那一個字需要好幾秒才看到辨識結果。之後不斷修改翻新,三年後的金聲三號(Golden Mandarin III) 終於不需要斷開文字,可以直接用連續語音輸入中文字。

李琳山說:「以前最大的問題是,華語中每個音的訊號的波形,長相都會因為前後字不同而改變。到金聲三號時我們已經讓機器自行由數據中,學出這些變化來解決這個問題。以現代名稱來說,就是古代的機器學習(machine learning) 。」李琳山說,以今天科技進步的速度來看,1990 年代稱為「古代」應屬合理。

今生:語音辨識加上雲端巨量資料庫

隨著機器學習等技術的進步,今天各種語音個人助理如 Siri 等等,聲控與回應能力也越來越強 。李琳山說明,其實 Siri 並沒有太多特別了不起的技術。

Siri 技術原理概念圖。 圖說設計/張語辰

如上圖,開發者把龐大的機器及計算資源、數據模型等設置在雲端,使用者對智慧型手機說話後,聲音訊號被送至「雲端」。雲端的龐大機器分析巨量資料、透過深層學習(Deep Learning,或譯深度學習)得到的技術來進行聲音辨識、資料搜尋,造句並合成聲音等,再傳回使用者。

如果除去雲端架構、巨量資料、深層學習等今日尖端技術及龐大的運算資源,Siri 剩下的華語語音辨識核心技術和 1995 年李琳山團隊的金聲三號差別並不大。

各種現行的語音助理:Siri, Google Now, Windows Cortana. By Pol.fores01 [CC BY-SA 4.0], from Wikimedia Commons
在今日巨量資料及深層學習的環境裡,機器可以在短期內聽完一個人由出生到 70 歲可聽到所有的聲音的總時數,甚至可聽完千百人一生聽過的聲音的總和。因此,機器有可能聽得比人還好嗎?現在或短期內還不會發生,但如是針對有特定規則的比賽,例如下棋或電腦遊戲,我們知道機器贏人已時有所聞。

提及「華語語音」辨識技術與「西方語音」辨識技術的差異,李琳山說明,華語是方塊字非拼音語言,由字構詞,由詞造句。詞的定義和在整句文句中詞的邊界也不明確。我們時常自動把很多小詞串起來變成長詞,又可以把長詞縮短變成短詞等等,也隨時自動產生很多新詞。

為了辨識語音、理解語意,機器自然需要詞典資料庫。然而開發者遇到的第一個問題可能是──該放多少詞?哪些詞?因為華語的詞幾乎是無限多的。

再者,華語一字一音,音的總數有限,但字總數很多,故同音字多,不同聲調和不同音的組合,產生出千變萬化的詞和句。例如,二人都說喜歡「城市」,乍聽並不易判斷他們到底是喜歡「城市」或「程式」。

華語中只有少數有限的「音」,每個「音」可代表很多同音字,這些字可拼成千千萬萬的詞和句。

華語的「音」帶有極豐富的語言訊息,這種「音」的層次的語言單位是西方語言所沒有的。

李琳山認為,透過巨量資料及深層學習,有機會讓巨量資料涵蓋人類語言中的各種現象,也有可能讓機器找到人類尚未考慮到的答案。也就是說當機器非常強大、數據多到可以涵蓋所有語言現象時,機器「有可能」自動學習到所有這些現象。不過目前還沒有發生。

下階段目標:「語音版」google,用聲音搜尋資訊

談及下一階段語音技術發展的可能方向,李琳山認為自己一直是追尋「遙遠大夢」的人,投入的研究方向常常在短期內看不出有實質回收的機會,例如:他今日非常有興趣的領域之一是語音搜尋,這就是語音版的 Google 。

網路多媒體湧現,如 YouTube 或線上課程,多數影片內容常有非常豐富的「聲音」,但其中的文字必須由人輸入,而且文字量常常比聲音少。

但現有透過 Google 去搜尋 YouTube 或影音平台的功能,僅止於搜尋那些人為輸入、數量較少的「文字」,例如影片描述、字幕等等,卻不是影音本身的「聲音」。

李琳山說:「 Google 看盡天下文章後能幫人找出任何一篇文章。機器聽聲音正如看文章,應該也可以聽盡天下聲音後,找到其中任何一句話。」例如,如果有人想找有關「深層學習」的演說,機器聽到指令搜尋後,應能跟他說某部影片的某句話提到「深層學習」。

目前用 Goole 搜尋 YouTube 影片時仍需要「文字輸入」關鍵詞,且只能找到整段影片,並無法知道影片中的每一句話各在說什麼,除非仔細聽一遍。這和李琳山所說的語音搜尋不同。 圖片來源/Google 搜尋

李琳山的團隊曾蒐集 110 小時、6000 則的公視新聞製作雛型系統,只要對機器說出「王建民讀的國小」,機器便會自動抓出含有「王建民」與「國小」兩個關鍵詞的新聞片段。

再以網路課程為例,李琳山的研究團隊曾開發「臺大虛擬教師」,把課程錄音以投影片為單位,將聲音切成小段,變成一張張有聲投影片。再從每張投影片中抽出「關鍵詞」建成關鍵詞圖,分析詞關鍵詞之間的關係。如此一來,機器不僅可以找出討論相關主題的課程段落,讓使用者知道所找到的投影片的大致內容,並可以建議學習的前後順序,也能自動摘要出其中的語音資訊。

李琳山現場展示「台大虛擬教師」的操作。例如,有一個學生聽演講時聽到類似 “Black word algorithm” (黑字演算法)的字眼,就上網查相關課程,發現果然有好幾張投影片都說到這個詞。不過一聽就發現,所找到的投影片真正說的是 “Backward algorithm” (反向演算法),那才是那個學生聽到的。李琳山說:「這可以證明我們搜尋的是聲音,而不是文字。」

來生:融會貫通多媒體數位內容,量身打造課程資訊

談起語音技術的未來,李琳山認為,未來機器有機會替人類把網路資訊去蕪存菁、融會貫通。例如 2015 年 YouTube 的尖峰時段每分鐘有 300 小時影片上傳 ,2016 年 Coursera 線上課程有將近 2000 門課。沒人有能力看完或聽完所有這些數位內容,人類的文明精華因而埋在大量不相干的資料堆中。但是機器可以看完、聽完它們。

具有代表性的線上課程網站 Coursera。 By Coursera – coursera.org, 公有領域, @wikipedia commons

李琳山舉例:機器有可能聽完全部內容並融會貫通,再為每個人抽出他所需要的部分,由機器量身訂製課程。例如一名工程師被派到奧地利出差,他跟機器說:「我想學莫札特作品的知識,但我是個工程師,沒有背景知識,願意花三小時來學。」李琳山認為技術上,機器有機會做得出這種「客製化課程」。

李琳山以「遙遠大夢」比喻語音技術的研究。

回顧華語語音技術三十幾年的發展,電腦機器已經從「牙牙學語」進展到「對答如流」,卻還有許多需著力之處。李琳山說「芝麻開門」是人類的千古大夢,希望開口說話就可以打開寶藏的大門。以今日眼光來看,網路是全人類的知識寶藏,未來隨口說句話便可以開啟寶藏大門是有機會的。他說:「大夢雖遙遠,有一天有人會實現它。」

延伸閱讀:

本著作由研之有物製作,原文為〈Google 可能會有語音版嗎?會長怎樣?「電腦聽說人類語言」技術的前世今生〉以創用CC 姓名標示–非商業性–禁止改作 4.0 國際 授權條款釋出。

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位









文章難易度
研之有物│中央研究院_96
283 篇文章 ・ 2898 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

1

0
1

文字

分享

1
0
1
考試好煩!你知道考試原來的作用是什麼嗎?——專訪中研院近代史研究所徐兆安助研究員
研之有物│中央研究院_96
・2023/09/16 ・4800字 ・閱讀時間約 10 分鐘

本文轉載自中央研究院「研之有物」,為「中研院廣告」

  • 採訪撰文|李芊
  • 責任編輯|田偲妤
  • 美術設計|蔡宛潔

考試制度是怎麼從科舉變成今天這個樣子的?

我們從小到大經歷過無數次考試,但你是否有想過,這個影響我們求學與就業的重要制度是因何而起?究竟考試制度背後隱藏哪些驚人內幕?中央研究院「研之有物」專訪院內近代史研究所徐兆安助研究員,帶我們回到清末民初的教育現場,探索政府與教育界如何應用考試,挽救岌岌可危的新式教育制度,雙方又如何相互制衡與合作,讓考試及學校成為管控社會秩序的利器。

升大學分科測驗成績出爐,路過補習班紅榜,你是否想過考試的目的?
圖|研之有物

對於在臺灣準備升高中的九年級學生、準備升大學的高三生來說,也許一年的劃分就是以冬季與夏季的升學考試為依據。在競爭激烈的職場中,優秀學歷成為社會新鮮人的最佳利器,但想謀得好學歷就必須力拚考試高分,讓考試成為跨世代臺灣人共同的記憶。

儘管持續有教改團體針對考試的內容、形式、公平性等提出改革建議,但數十年來,眾多考生與家長依然接受了升學考試制度,投入大量時間、精力備考,更不惜砸重金搶補教名師課程。

我們的一生經歷過大大小小的考試,卻不一定清楚這些考試制度當初成立的目的。

事實上,在民國初年,新式教育剛施行的 1920、1930 年代,曾經考試除了用來測驗學生,更被用來監督學校的辦學成效。

專長明清及近代思想史、制度史的中研院近代史研究所徐兆安助研究員,深入探討 1905 年科舉廢除後的新式教育制度,訴說一段政府與學校透過考試相互制衡與合作的詭譎歷史。

中研院近代史研究所徐兆安助研究員
圖|研之有物

要怎麼讓社會接受新式學校的文憑?來考個試吧!

在談現代考試制度之前,讓我們先回到清末科舉存廢的關鍵時刻。

1900 至 1901 年八國聯軍攻佔北京,科舉考場「貢院」遭到破壞,當時受科舉宰制的教育與選才方式已成眾矢之的,該將有限的國家資源拿來修復貢院,還是發展新式教育制度,在 1905 年成為各方人馬的爭論焦點。在這次辯論中,廢除科舉最終定案,新式教育制度成為肩負國家教育大業的主要系統。

然而,科舉與新式教育的不同目的與學習過程,卻帶來新的價值觀混亂。

首先,在科舉制度下,為了一舉成名而寒窗苦讀者,不需在私塾或書院待滿固定年限,大半時間是靠自學通過層層考試關卡。但是,接受新式教育的學生必須依序就讀小學、中學、大學等學校,一級一級往上累積學歷,且每個學歷都有固定的修業年限。

1928 年的新式教育學制,每個學歷都有學齡與修業年限規範。
圖|研之有物

身處當代教育環境的我們已經很習慣循序漸進的學習制度,但清末民初的人們卻一時難以適應。新式學校不像傳統書院會發學習津貼給學生,還要收取相對高額的學雜費。畢業後還要面臨社會對學校文憑的不信任,一時難以成為求職的有效助力。

許多學生一開始受政府鼓吹而進入學校就讀,卻經常未完成修業年限即離開校園,「教育破產」很快成為政府與社會各界的共識,而學校便成為被究責的單位。

廢除科舉後的十多年間,各界的討論開始聚焦於該如何監督學校、管制學生。到了 1920 年代,政府與教育界推出了各種校外考試的實驗方案。這些方案大同小異,都預設考試可以成為規範學校、解決「教育破產」的重要手段。

是什麼讓考試成為評鑑辦學效率的方法?——「以簡馭繁」的法家精神

支持考試論的學者以史學家呂思勉、厚黑學作者李宗吾為首,面對民國初年的教育破產危機,他們為何都倡議由國家透過集體考試來監督學校呢?

一方面,用監察態度面對學校起因於對教育界的不信任,這可追溯至廢除科舉後的教育改革過程並不公開透明。新式教育的推行牽涉政府官員、半官方與非官方代表,包含辦學人員、民間教育會、教科書出版商等,他們彼此拉扯出錯綜複雜的利害關係、形成勢力龐大的教育界。

李、呂二人身涉教育事務,看到學校各種圖利卻未自我要求的行為,因而認為一個審核學校的機制勢在必行。

李、呂二人更主張,考試制度還能讓教育過程更有彈性,學生只要通過考試即可證明自己的實力。因此,學生可以選擇私塾或新式學校等不同的學習方式,不需受到學校修業年限的硬性規範。而且不同學習機構並存還可強化競爭力,促使學校為了招生而更積極辦學。

另一方面,對當時的國民政府來說,在國家資源有限的情況下,國家只需負擔統一大考即可由上而下監督學校,提醒學校要維持該有的教學品質。這樣秉持法家「以簡馭繁」精神的手段,使考試制度最終受到執政當局的採用

「我不要考試啦!」學生的反彈與思想控制的開始

1932 年政府正式頒布《中小學學生畢業會考暫行規程》,卻受到各地師生的反抗。對於參加會考的學生來說,會考對取得學歷、升學和職涯發展都沒有明顯好處。

首先,單就畢業資格來說,不參加會考也能在修業期滿後獲得學歷,一旦參加會考卻成績不及格,反倒會被留級。再來,許多大學並不以通過會考作為入學資格。最後,除非想要成為公務員或任職國營機構,畢業生沒有會考成績也可直接應聘私人單位。整體看來,不參加會考才是比較聰明的選擇。

面對反抗考試的學生,一意推行會考制度的國民政府,採用相當直接的手段回應:以武力逼迫學生就範。

臺灣在 1970 年代出了一位拒絕聯考的小子,時間回到 1930 年代的中國,不願考試的可不只一、二位學生。1932 年,山東濟南高中學生因反對會考而與校方展開對峙,最終在教育廳長出動軍警武力鎮壓後落幕,卻造成大批學生受傷、被勒令退學。

1919 年 5 月 4 日,天安門廣場聚集北京 13 家大學逾 3 千名學生。五四運動開啟近代學生運動浪潮,卻也讓各政權擔心學生會動搖社會秩序,進而應用學校與考試制度加以管制。
圖|Wikimedia

隔年 1933 年,政府再根據實施情況及各方意見修改規程,最大的改變是取消小學畢業會考,轉而針對初級和高級中學制定《中學畢業會考規程》、《中學畢業會考委員會規程》。針對中學施行會考的原因之一是,當局認為小學生還年幼,不像中學生會發起學運,至此,會考除了監督學校以外,更加上了控制學生思想行為的功能。

學校各自為政,會考制度名存實亡

至於考試論支持者最重視的「以考試監督並制衡學校」卻反而沒有達成。預設的中央化考試制度、標準化知識內容,實際執行時卻面臨經費與人力嚴重不足的困境。真正負責考試業務的單位並非中央政府,而是非官方、地方仕紳聯合形成的教育會,或者資源多寡不一的各地省政府。

地方資源的多寡深刻影響考試的舉行。例如,大規模考試為了防堵作弊,通常不讓考生在原校就考,但在不可能另撥經費建造考場的情況下,仍舊得仰賴學校提供大量考場。如果一個地方沒有足夠的學校,學生往往就在原校就考,在熟悉的環境享受主場優勢,甚至發生老師協助作弊等醜聞。

此外,照理來說,各校的考生名單應該由中央政府統一管理,但無力建立管理機制的政府只好交由學校來處理報考業務。有些學校因而私下篩選成績好的學生參加考試。

不久,隨著 1937 年抗日戰爭的全面爆發,各省行政資源逐漸耗竭、多地交通中斷、學生四散,集中考試變得難以辦理,改以「抽考」部分學生作為學校整體畢業標準指標,甚至讓學校自行辦理會考,政府僅派代表監臨。

自此,會考可說名存實亡。雖曾短暫於 1957 年在臺灣復辦,將國文、史地、三民主義的會考成績與聯考合併計算,試圖鼓勵學生重視中華民族主義的相關知識。但會考與聯考的標準無法整合,在各方反對之下,僅一年時間便告終,結束近 20 年的政府與學校角力之爭。

會考的考試科目包含:黨義(公民)、國文、算學、物理、化學、生物、歷史、地理、外國語。其中「黨義」後改稱「三民主義」,主要教授孫中山提出之民族、民權、民生思想,以及國民黨反共抗俄理念。圖為 1951 年南投縣立初級中學課堂,黑板上寫著「奉行三民主義,擁護反共抗俄」。
圖|Wikimedia

為了什麼而考?不同治理方法中有不同目的

徐兆安出生於英國殖民時代末期的香港,身處的教育制度仍然相對寬鬆,通常上午 8 點半上課、下午 4 點即放學,在升學上並未經歷臺灣式的考試高壓。來臺求學與就業的過程中,他逐漸體會臺灣教育與升學考試之間緊密的關係,印象最深刻的是補習班門口榜單滿掛的盛況!

如今在臺灣結婚生子的徐兆安,開始想像女兒長大後必經的升學考試歷程,研究近代中國考試制度,有助了解臺灣過去 70 多年的考試發展脈絡,讓他更認識臺灣親友的生長背景。

徐兆安出生於英國殖民時代末期的香港,在升學上未經歷臺灣式的考試高壓。研究近代中國考試制度,有助了解臺灣過去 70 多年的考試發展脈絡。
圖|研之有物

徐兆安想深入探討的是:「廢了科舉以後,為什麼我們現在還這麼相信考試?中間發生什麼事?作為一個歷史學家,我覺得現有的解釋還不完整,跳過很多具體的事件。」

我們需要了解細節,以避免誤解的延續。今日我們在臺灣所共同面對的升學體制,並不是直接延續自科舉的產物。對歷史的誤解,會讓我們無法確切把握教育問題的病源。

事實上,在科舉與現代考試之間還有一段歷史需要填補。校外中央化考試的立意不僅是監督學校的辦學成效,更隱含執政者對學生的高度不信任。尤其在五四運動後,一連串的學運讓學生被視為動搖社會秩序者,因而以考試制衡學校、也間接淘汰反抗的學生。

國民政府遷臺後,1949 年起在臺灣實施長達 38 年又 56 天的戒嚴令,也連帶改變過去制衡學校與淘汰學生的作法,轉而讓學校成為吸納大批學生、管控社會秩序的幫手。考試的目的之一遂變成把學生依照分數高低分發至不同學校予以教導

在臺灣戒嚴時期,學校成為吸納大批學生、管控社會秩序的幫手。考試的目的之一遂變成把學生依照分數高低分發至不同學校予以教導。
圖|iStock

目前徐兆安正著手進行科舉與近代考試制度的研究出版計畫,他認為近代史的研究難題在於材料「既多又少」。所謂「多」是指,各種出版與轉引的材料往往多到難以處理。所謂「少」則是指,特定材料宛如試金石,讓研究者理解眾多一般材料背後的真正意義,但這些關鍵材料卻相當稀少,且分散在兩岸以至歐美的各個機構中。

徐兆安生動比喻自己的研究過程:「就像跳探戈一樣,周旋在多與少之間,這是近代史學者比古代史學者更困難的地方。」

即使困難重重,近代史學者仍持續蒐集並解讀每筆文獻,修正對過往事件的刻板印象,讓歷史盡可能以貼近事實的方式呈現,我們因而能更明白自己承續的故事和當下的處境。

所有討論 1
研之有物│中央研究院_96
283 篇文章 ・ 2898 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

1

1
0

文字

分享

1
1
0
語言也是一種證據!南島語族發源地竟在臺灣?——專訪語言學研究所張永利研究員
研之有物│中央研究院_96
・2023/08/27 ・4908字 ・閱讀時間約 10 分鐘

本文轉載自中央研究院「研之有物」,為「中研院廣告」

  • 採訪撰文|田偲妤
  • 美術設計|蔡宛潔

南島語族的起源與變遷

南島語族發源自何方?是學界長期探索的焦點,在眾多研究領域中,語言學界為分布在南太平洋與印度洋諸島的族群確立關係,分類命名為南島語族(Austronesian-speaking peoples) 。除此之外,還有許多語言證據指出,南島語族可能是從臺灣擴散出去。中央研究院「研之有物」專訪院內語言學研究所張永利研究員,為我們深入分析,臺灣南島語保存哪些其他南島語「丟失的現象」,可以藉此重建南島語族的發展源頭與遷徙路徑。

嘉義阿里山鄉新美國小學生獻唱鄒族古謠。圖|Wikimedia

南島語族的發源地究竟在何方?目前已有越來越多證據指出,南島語族可能是從臺灣出發,遷徙至廣大的南太平洋與印度洋島嶼開枝散葉。

考古學家在臺灣、呂宋島、大洋洲等地出土相似的陶器碎片,經年代鑑定後發現,最早的繩紋紅陶陶器來自 5、6 千年前的臺灣大坌坑文化。植物學家則對各地的構樹樣本進行分子親緣分析,發現南太平洋島嶼的構樹應源自臺灣,推測先民帶著樹皮衣材料構樹,自臺灣遷徙至南太平洋諸島。

除了上述證據,還有一樣活在生活周遭的非物質遺產,能作為南島語族「出臺灣說」的有力證據,那就是臺灣原住民族正在使用的「語言」!

中研院語言學研究所是研究與推廣「臺灣南島語」的重要基地,走進語言所典藏豐富研究著作的展覽室,投身臺灣南島語研究近 30 年的張永利研究員,與我們熱情分享語言學家的工作。

各地南島語言的特徵與變遷,是語言學家長期探索的問題,多年來一位位研究者深入原住民族部落,用羅馬拼音一字一句記錄部落長者的口語發音,經由比較臺灣與其他地區南島語言的關連與特徵,南島語族的發展源頭與遷徙路徑就在歷代語言學家的重建下現形。

中研院語言學研究所張永利研究員,投身南島語言研究近 30 年,與我們熱情分享語言學家的工作。圖|研之有物

如何確定臺灣南島語更接近原始南島語?同源詞繁簡成線索

南島語族是總人口數近 4 億人的龐大族群,其分布範圍北到臺灣、南到紐西蘭、東到復活節島、西到馬達加斯加。臺灣是南島語族分布的最北界,目前官方認定的原住民族共有 16 族,每個族群都有自己的語言,在整個南島語族 10 個主要語言分支中,臺灣南島語就佔了 9 個分支,其語言多樣性與存古性為世界少見。

南島語族 10 個主要語言分支,臺灣南島語就佔了 9 個分支,其語言多樣性與存古性為世界少見。圖|研之有物    資料來源|Blust, 1999: 45

「曾有外國學者讚嘆:南島語言是上帝送給臺灣的禮物!」張永利逐步分析臺灣南島語的珍貴之處:「考古和語言證據推估,臺灣南島語至少有 5 千年歷史,而麻六甲海峽附近國家使用的馬來語只有 2 千多年而已。此外,臺灣南島語還保留一些其他語言丟失的現象。」

所謂「丟失的現象」正是語言學家證實臺灣南島語較古老、可能是南島語族早期祖居地的關鍵證據。藉由歷史語言學方法比較南島語言之間的親緣關係與發展先後,丟失的現象慢慢浮現,成為值得研究的案例。

首先,語言學家特別構擬出一套「原始南島語」作為比較標準,音韻、構詞、句法越接近原始南島語者,就越有可能是族群發源地。

要構擬出原始南島語並不簡單,語言學家無法穿越時空回到 5 千年前,必須集結全球語言學家的力量,深入各個南島語族聚落採集語言材料,再從中找出語音、語意相似的「同源詞」做比較。由於語言變化的過程經常發生「由繁趨簡」現象,因此發音越複雜的語言通常越古老,語言學家再從較古老的語言構擬出原始南島語。

張永利舉同源詞「眼睛」為例,說明臺灣南島語較為古老的原因。眼睛的原始南島語是「maCa」(大 C 的發音為 ts 複合音,同注音符號ㄗ),而臺灣的排灣語是「maca」,其發音與原始南島語相同。

再看看馬來語的眼睛是「mata」,ts 複合音明顯簡化成 t,發生語言「由繁趨簡」的現象,證明臺灣南島語比馬來語更古老。

從同源詞「眼睛」的語音變化可發現,排灣語、鄒語較接近原始南島語,而賽夏語、馬來語的發音出現簡化現象,從中可看出族群發展的先後順序。圖|研之有物    資料來源|張永利

張永利進一步解釋,為何「由繁趨簡」現象可看出語言發展的先後順序:「有人可能會質疑,為什麼語言不是從簡單變複雜,發音由 t 變成 ts?如果是這樣你要解釋,多出來的 s 音是怎麼無中生有。這就如同人類社會的變遷,從複雜變簡單通常有跡可循,但無中生有需要創新的力量,從來不是簡單的事。」

這些語言有畫面!從同源詞推測千年前的生活型態

同源詞還可以重建南島語族原初的生活環境。根據語言學家的觀察,能成為同源詞的單字通常是日常使用的基本詞彙,例如爸爸、媽媽等親屬稱呼、數字 1 到 10,或是眼睛、頭、手、腳等身體部位。

因此,如果還能發現動物、植物、生活器具的同源詞,代表這些事物是曾經長時間存在的文化,才得以跨越千年時空在語言中留下印記,成為一窺南島語族原初生活環境的線索。

語言學家從原始南島語、原始排灣語、原始泰雅語、原始鄒語彙整出 100 個基本同源詞,當中包含許多指稱農作物、野生動植物、生活日用品的字詞:

原始南島語同源詞反映之自然與文化特徵。圖|研之有物    資料來源|何大安與楊秀芳, 2000: 17-22

從上述同源詞可推測,原始南島語族應該是以稻作維生,擅長紡織與編織技藝,生活周遭可見「露兜樹、甘蔗、藤」、「河鰻、田鼠、蒼蠅」等主要分布在亞熱帶地區的動植物。這些同源詞所反映的自然與文化特徵,對解答南島語族發源地問題具有相當大的啟發。

此外,從某些同源詞的語意轉變還可看出指稱的是外來事物。例如鄒語的「水牛」叫作「’ua chumu」,「chumu」是指「水」,但「’ua」最初並不是指「牛」,其真正的意思是「鹿」。換句話說,水牛應該是外來物種,推測鄒族先民看到外來的牛,跟鹿一樣都是四隻腳的大型哺乳類動物,因而發生「指鹿為牛」的情形。

講話講重點!第一個字就表明重點的「焦點系統」

除了從同源詞可以證明臺灣南島語較接近原始南島語,語言學家還發現,比起其他地方的南島語言,臺灣南島語保存最完整的「焦點系統」。這是一種非常古老的文法,在世界其他語言中並不常見。

焦點系統是用來凸顯一句話中想要強調的焦點,主要分成主事、受事、處所、工具共 4 種焦點,每種焦點都有相對應的動詞詞綴變化,並會在重點字詞前方加上格位標記 a。

由於南島語言習慣將動詞置於句首,等於你聽到第一個字就知道說話者想強調什麼。以下為 4 種焦點在排灣語的使用方式:

排灣語焦點系統應用,句首動詞 qaljup(打獵)會因應不同焦點而加上不同詞綴,焦點前方也會加上格位標記 a 來指稱重點。圖|研之有物    資料來源|何大安與楊秀芳, 2000: 8

古老的修飾用語:副動詞

最後一個臺灣南島語較為古老的證據在於,其詞類相當有限,主要是動詞、名詞的應用,沒有真正的副詞、形容詞等修飾詞。但是當有需要用到修飾用語時該怎麼辦?這就輪到特殊的「副動詞」登場!

副動詞顧名思義是指:具副詞作用的動詞,是臺灣南島語經常使用的詞類。張永利秀出排灣語和馬來語的句子,進一步說明副動詞與一般副詞的不同:

圖|研之有物    資料來源|張永利

排灣語的「g<em>alju」就是一個副動詞,意思是「慢」,之所以看出它是一種動詞,關鍵在於它跟後頭表示「吃」的動詞「k<em>an」有一樣的詞綴變化「em」。而中間的連繫詞 a 亦可應證「g<em>alju」與「k<em>an」應同屬於動詞。此外,「g<em>alju」的後面連接附著代詞「aken」表示「我」的意思,附著代詞一般會貼在動詞上。

值得注意的是,古老的副動詞在臺灣南島語言普遍保留下來,但是在臺灣之外的南島語言,如馬來語,卻通常都已經丟失。

綜上所述,從同源詞複雜度、焦點系統完整性、使用詞類有限等語言證據可知,臺灣南島語在目前已知的上千種南島語中,其古老排名可說名列前茅,也代表臺灣可能是南島語族早期的祖居地。

張永利表示:「綜合歸納現在的語言和考古證據,我們可以畫出南島語族遷徙路徑,基本上是從臺灣遷徙出去,先遷往菲律賓群島,再往南到婆羅州一帶,隨後一分為二,分別往東方太平洋和西方印度洋遷徙。」

南島語族遷徙路徑。圖|研之有物    資料來源|Bellwood, 2011

用「說」的文化資產——母語

對張永利來說,越深入研究就越能體會,臺灣南島語真的是臺灣千年不墜的國寶!除了持續在學界發表臺灣南島語的概念運用規則,張永利也會到原住民部落推廣族語,多年來也跟國內語言學家一起編寫鄒語、噶瑪蘭語、賽德克語等族語教科書。

張永利研究員持續研究臺灣南島語的概念運用規則,多年來編寫多本族語教科書,更前往部落推廣族語。圖|研之有物

在與族人互動的過程中,張永利發現,年輕族人為了溝通方便,有簡化族語的傾向,以致某些傳統用語漸漸流失。

以鄒語為例,傳統上在說 11 這個數字時,老人家會講 maskx veiya ucni,「maskx」是 10、「ucni」是 1,中間的「veiya」是「回來」的意思,翻譯成中文就是「10 回 1」,可見鄒族會使用十進位來算數,可是現在的年輕人通常會省略「veiya」的用法。

另外名字的說法也發生簡化現象,例如有一位鄒族人的名字是 Pasuya、家族名是 Tiakiana,老人家會講 Pasu’e Tiakiana,大致的意思是「來自 Tiakiana 家族的 Pasuya」。但是現在的年輕人就直接講 Pasuya Tiakiana,身分證上的名字也這樣登記。

面對日漸普遍的族語簡化現象,張永利有感而發的說:「年輕人覺得只要聽得懂就好,但我會跟他們說,語言也是文化的一部分,而且很多說法只存在特定族群中,想復振傳統文化就要講道地的族語。」

一般人常將語言視為溝通工具,認為只要能有效溝通就好,然而深諳語言奧妙的張永利卻有不同看法:

語言也是一種文化資產,不論是臺灣南島語、華語、臺語或客語都有其文化特色,具有身分識別作用。

「母語能留著就是你的寶藏,現在『特色』就是你最重要的資產!」母語是臺語的張永利不僅在學術場域研究語言,更在日常生活中透過多使用母語來保存語言資產。「語言不是只寫在教科書、或在課堂上唸,一定要積極使用,這樣語言才能真的活起來!」

千年以來,臺灣這座南島語族的原鄉發展出眾多語言文化各具特色的族群,如今在族人及語言學家的努力下,族語的復振工作正如火如荼進行,許多正名成功的族群紛紛從族語找回身分認同,找回值得守護的南島語族寶藏。

噶瑪蘭族自 2002 年 12 月 25 日正式被認定為原住民的第 11 族,其族語至今依然被族人保存使用,並編印成噶瑪蘭語辭典、語法書,作為學校鄉土教學的教材。圖|Wikimedia
所有討論 1
研之有物│中央研究院_96
283 篇文章 ・ 2898 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

0

2
0

文字

分享

0
2
0
臺灣原子與分子科學研究所創立的幕後功臣:張昭鼎——專訪中研院原分所陳貴賢研究員
研之有物│中央研究院_96
・2023/08/26 ・4364字 ・閱讀時間約 9 分鐘

本文轉載自中央研究院「研之有物」,為「中研院廣告」

  • 採訪撰文|簡克志
  • 責任編輯|簡克志
  • 美術設計|蔡宛潔

中研院原分所的推手

中央研究院原子與分子科學研究所(簡稱原分所),是國內原子科學的研究重鎮,位處於臺灣大學學區,研究領域涉及表面科學、尖端材料、原子/分子與光學、化學動態學以及生物物理。原分所第一任的籌備處主任為張昭鼎先生,他的思維與待人接物的方式,深深影響了現在的原分所。中研院「研之有物」於 2023 年 4 月專訪原分所所長陳貴賢特聘研究員,一起從他的角度認識這位謙和又有遠見的科學家。

在研之有物團隊與張昭鼎紀念基金會人員到訪時,陳貴賢相當熱情地介紹原分所沿革以及張昭鼎的為人處世。圖|研之有物

當天是個晴朗和煦的午後,研之有物團隊和張昭鼎基金會的工作人員,來到位於臺灣大學的中研院原分所,準備拜訪陳貴賢所長。原分所位於臺大校園中心,旁邊就是醉月湖,研究所建築外觀換新之後,以典雅新穎的紅磚色拱形亮相。甫進辦公室,充滿活力的陳貴賢,看起來已經準備好和我們分享關於原分所和張昭鼎先生的故事。

原分所建立初衷

原分所成立於 1982 年,由張昭鼎擔任第一任籌備處主任(1982~1993),現任所長是陳貴賢,擔任所長已將近 7 年(2016~2023),並即將在今年 7 月 15 日交接所長職位給魏金明合聘特聘研究員。當我們問到原分所一開始是如何成立的?陳貴賢提到,原分所是當時海外學者李遠哲與浦大邦開始的構想,希望幫助臺灣發展原子與分子科學、同步輻射科學兩大領域,以跟進國際科學的研究步調。

為了和政府提出建言,李遠哲等學者邀請了全世界知名的科學家一起討論,包含吳健雄以及她的先生袁家騮,他們當時還回臺灣做了好幾場演講。經過持續的溝通與交流,最後終於事成,浦大邦主要負責同步輻射(中心落腳於新竹清華大學旁),而李遠哲就是想辦法建立原分所。

由於李遠哲當時人在美國柏克萊大學化學系任職,他迫切需要一位信任的人在臺灣幫忙。因此,他找了在學時期認識的臺大學長張昭鼎,請他負責籌備原分所,張昭鼎當時已經是臺灣無機合成化學的先驅。陳貴賢回憶道「張昭鼎是一位格局很大的人,也可以理解基層的需求」。

成立一個所並不簡單,有很多眉角要處理,比如選址就是大問題。李遠哲希望能夠促進中研院和學校之間的合作,讓年輕學生也能參與研究,最終選址於臺灣大學正中央,原分所就此成立。「對有志於科學的年輕人是非常大的福氣」,陳貴賢說。

1982 年原分所籌備初期的建築工地,照片中李遠哲(右 1)、張昭鼎(右 2)與李崇道(右 3)正在討論。圖|陳貴賢

原分所在做什麼?新興材料的研究重鎮!

話說回來,原子與分子科學研究所是研究什麼呢?看起來不是一般的物理、化學、機械等數理學術機構。陳貴賢在訪談中笑著說,「所有的物質都是原子組成的,兩個原子結合在一起就變成分子,分子繼續疊在一起就會形成固態、氣態或液態的物質。」原分所是在研究原子相關的物質科學,但陳貴賢強調,原子內還有各種基本粒子,例如質子、中子或夸克等,研究這些基本粒子屬於高能物理,不屬於原分所的研究範疇。

舉例來說,原分所的研究有大家很熟悉的半導體,以及稱為「表面科學」的重要領域。陳貴賢說,很多化學反應都會發生在物質表面,尤其太陽光如何和表面原子互動相當值得探討,他的實驗室就有研究如何透過光催化材料來進行人工光合作用。

原分所另一個重要領域是「化學反應動態學」。陳貴賢提到,過去李遠哲回臺灣時,就有從柏克萊帶回珍貴的交叉分子束設備。設備的噴嘴會噴出兩束不同的分子束,讓分子束交叉碰撞之後,觀察化學反應的動態機制。「了解化學反應怎麼發生,才有可能對它進一步控制」,陳貴賢道,他以燃燒反應為例,如何讓燃燒反應更完全、減少污染物的產生就是個大學問。

此外,陳貴賢還分享了另外兩個重要領域「尖端材料」和「生物物理」,尖端材料例如能源材料,有太陽能材料或是熱電材料等,讓未來能源發展有更多機會。生物物理例如研究生物影像的分析方法,發展各種創新的顯微技術。

原分所發展至今,即使張昭鼎在 1993 年 4 月離世,仍受到他的處世之道影響。陳貴賢回憶道,當時 1993 年元月份來到原分所,在開始長期的學術生涯之前,曾仔細瞭解張昭鼎的事跡及為人,發現他很重視基層人才,願意給年輕人機會,甚至幫忙找資源。

隨著不同的所長接任,原分所的制度和規範逐漸完善,在林聖賢、劉國平、王玉麟、及周美吟等所長的努力下,原分所逐漸進入穩定發展的狀態。王玉麟擔任所長期間為了紀念張昭鼎,在 4 樓的會議廳就命名為「張昭鼎紀念講堂」。

張昭鼎紀念講堂。圖|研之有物

搶救《科學月刊》,致力於科學教育傳播

除了成立原分所之外,張昭鼎的另一項重要貢獻是《科學月刊》。《科學月刊》是臺灣本土力量孕育而生的科學雜誌,自 1970 年創刊營運到現在,是珍貴的科學傳播刊物,對於臺灣科學界的人才培養和學術交流都有好的影響。

關於《科學月刊》對臺灣早期科學界的重要性,陳貴賢說:「你做的科學研究不只是要在國際上發表成果,你甚至希望可以扎根,讓更多下一代的人可以對科學有興趣。在那個時代我想《科學月刊》幾乎是唯一的選擇。」

張昭鼎是《科學月刊》在位最久的董事長(1973~1993),1970 年代初期是《科學月刊》早年財務最艱困的時候,甚至在 1975 年內部曾經有停刊的想法,而張昭鼎與董事會最後的決策是:保留《科學月刊》,圖書業務則交由他人負責經銷。這個決定影響深遠,讓《科學月刊》度過困難的 1970 年代。

張昭鼎(左)與李遠哲(右)合影,《科學月刊》創刊 20 周年紀念餐會。圖|張昭鼎紀念基金會

然而,張昭鼎在 1993 年不幸過世。他的離世對好友李遠哲來說是巨大的衝擊。陳貴賢提到,李遠哲曾在懷念故友文章寫道「或許真的是已到了我該回家鄉的時候了」。很多人起初以為他只是暫時回臺灣,沒想到李遠哲真的一直留在臺灣,為原分所、中研院學術界以及臺灣社會持續付出。

張昭鼎離世之後,次年張昭鼎紀念基金會隨之成立。基金會繼承張昭鼎的精神,積極推廣科學教育,在李遠哲院士倡議之下,2011 年基金會首度舉辦了「居禮夫人高中化學營」(今為瑪麗居禮科學營)。瑪麗居禮科學營的招生對象,主要是對數理化學有興趣的高中學生,在四天的營隊活動,邀請重要學者做專題演講,特別精心設計分組實驗實作,讓學員對科學研究有親身體驗。

陳貴賢分享,原本營隊主要籌備是清華大學,後來張昭鼎基金會董事希望在中研院、臺灣師範大學以及張昭鼎紀念基金會的努力下,將營隊活動轉移到臺北。感念張昭鼎對原分所的貢獻,陳貴賢沒有第二句話,全力幫忙。從 2020 年開始,瑪麗居禮科學營就順利在臺北舉辦至今。

入世的科學家——張昭鼎

在原分所服務多年的陳貴賢,雖然和張昭鼎真正相處時間很短,但對張昭鼎的為人處世印象相當深刻。陳貴賢認為,張昭鼎之所以能體會基層的需求,正是因為吃過苦,他出身於困苦家庭,小時候幾乎都在戰亂中度過;而從小得知母親與「鴨母王」朱一貴的血緣牽連,也時刻提醒張昭鼎保持不隨波逐流的反叛思維。

陳貴賢:「他不是關在象牙塔裡面的科學家,他是一個入世的、對社會關懷很深的一個人。」

不僅在學術界有影響力,張昭鼎也在社會廣泛交友,認識許多執政黨與在野黨的人,並與他們建立友誼。陳貴賢提到,這也是當初李遠哲邀請張昭鼎擔任原分所籌備處主任的原因,看重他的人脈和社會參與能力。

張昭鼎(右)是李遠哲(左)最敬愛的朋友,人脈相當廣。圖|陳貴賢

除了人脈廣,張昭鼎也力求資源妥善利用。陳貴賢說,之前一位芝加哥大學畢業的同仁曾經回憶,當年張昭鼎到芝加哥去招聘人才的時候,他住的旅館是 YMCA 青年旅館!其實原分所在籌備階段經費是相對充裕的,但是張昭鼎堅持不浪費,將人民的稅金用在最需要的設備添購上。「他的堅持令人敬佩」,陳貴賢說道。

陳貴賢接著回憶,在籌建原分所期間,張昭鼎與行政體系常有意見相左的情況,因為行政人員認為只有法律允許的才可以做。而張昭鼎則試圖在法律找到合情合理的談判空間,所以他在原分所籌建過程也協助突破許多公務採購障礙,提升政府的服務效率。

陳貴賢認為,張昭鼎是一個跨越族群與階級的行動家。跨越族群的意思是,張昭鼎是閩南人、也是臺灣人,但是他不會因為本省/外省、客家/閩南等不同族群,在社會參與上劃地自限。跨越階級的意思是,他的出身困苦,並不是特權或貴族家庭,所以他是入世的、走出來的人,願意服務於基層,也願意為基層服務。

陳貴賢最後感慨地說,張昭鼎是跨越了不同階級與族群的人,只可惜他離開的早。接著,陳貴賢分享自己曾經隨手寫下的一首臺語歌,在訪談中哼了起來,以紀念張昭鼎先生。

啦啦啦啦 啦啦啦啦
啦啦啦啦 啦啦啦啦
地瓜落土 才會生湠
等待春天的雨水
新希望

陳貴賢解釋,這首歌的意思是說,地瓜要放進泥土裡面,才會長出新的葉子,並等待春天的雨水到來。當春雨來的時候,就是一個新的世代。人生路途中,有些人留得比較久,有些人走得比較快。像張昭鼎先生雖然不幸離開,但後面會再有新的一代,就像代表臺灣人的地瓜一樣,堅持著地瓜精神,一直延續下去。

陳貴賢認為,張昭鼎是一個跨越族群與階級的行動家。圖|研之有物

研之有物│中央研究院_96
283 篇文章 ・ 2898 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook