聲音的DNA：聲紋辨識

Radio microphone isolated on domestic background, concept of podcast, online radio, streaming, entertainment, audio, and new ways to do communication.

文／洪萱眉雅文基金會聽語科學研究中心助理研究員

在如今這個網路時代，人人在日常生活中都常要透過帳號、密碼來辨識身份，不管是提款卡、行動裝置（手機、筆電、平板）、網路銀行、行動支付等，都需設定一組帳號密碼來辨識自己的身份。

為了不讓自己的帳號被駭，每次都得抓破頭來設定，太簡單擔心被破解，太複雜又怕自己記不住。更煩人的是，每個平台的密碼設定都有自己的規則，有些要求要有特殊符號，有些則要求英文大小寫和數字都要有。

於是，為了兼顧安全與便利性，越來越多廠商使用指紋辨識來解鎖，這樣既不用擔心忘記密碼，也不容易被盜用。然而，你知道，我們的聲音其實和指紋一樣，也能進行身份辨識嗎？

專屬個人的聲音密碼

每個人的聲音都有獨特性，和指紋一樣能進行身份辨識。圖/freepik

聲音跟指紋一樣，都有獨一無二的特定性，而在利用聲音的特性做辨識時，就稱為聲紋辨識。我們接到熟識親朋好友來電時，他們不用說他是誰，我們只要一聽到聲音就能辨識。這是因為每個人的說話特性不同，聽聲音就能辨識說話者。而我們的語音訊號中可供辨識的因素，主要可分為三個面向^[1]：

-----廣告，請繼續往下閱讀-----

發音器官的差異：因每個人的發音器官差異，如口腔形狀、聲帶長短粗細不同，造成每個人的聲音特性有所不同。例如，當小朋友前排乳牙掉了時，說話時會有俗稱「漏風」的感覺，就是因為口腔的共鳴特性變了而造成的；而男生的聲帶比女生的要長且粗厚，振動頻率較低，因此聲音較低沈。
說話方式的差異：每個人的說話習慣的不同，像是說話的語速、語氣、抑揚頓挫、咬字清晰度、口音等等。比如電話一接通，就聽到大聲又連珠炮似的說話，馬上就知道是樓上的王阿姨要找媽媽。或是一聽到緩慢溫柔充滿感情的台灣國語，就知道是阿嬤從台南打電話來了。
說話內容的差異：生長背景、教育程度、社經地位的不同，使說話內容有所差異，例如：用詞、句型等等。像巷口賣水果的阿伯和他讀中文系的女兒，同樣要向顧客自賣自誇鳳梨有多甜，女兒也許會說「那甜蜜的滋味藏著一絲微微的酸，就像那年夏天的初戀」，阿伯則可能會說「帥哥偶謀騙你，這粒旺來跟我女兒的笑容一樣甜啦！」

上述的這些差異都可作為我們辨識說話者的依據。而其中說話方式和內容可能被他人學習、模仿，只有發音器官的差異是天生的，無法被模仿且在分析，所以許多辨識系統是採用發音的聲學特徵（acoustic features），例如，聲音頻率（高/低）、音色（如：輕柔、渾厚）等特性都可作為辨識的依據^[1]。

聲紋比對辨身分

聲紋辨識和指紋一樣，皆為生物辨識的一種。從人類的身上萃取出具有身份鑑別能力的特徵，如：指紋、聲音，將此特徵經處理、分析後儲在系統裡，日後可依據此特徵來辨識使用者的身份。利用我們獨特的聲音來辨識身份的聲紋技術，亦可稱為「語者辨認」或「說話人辨認」（speaker identification）^[2]。

聲紋辨識的過程包含兩個階段：1. 聲紋提取（voiceprint extraction）。2. 聲紋比對（voiceprint comparison）。在確認說話者的身分之前，要先有說話者的聲音語料，依說話者提供的聲音語料進行分析，並建立專屬他的聲紋模型。

一般在處理語音訊號時，會將音檔切割成小區段的方式來處理、進行分析，透過聲譜圖上的資訊來分析說話者的聲音頻率、音強、抑揚頓挫等建立專屬他的聲紋模型，並將其聲紋資訊存到系統裡。就像將我們的指紋存到手機的系統裡一樣，可以比對我們登錄系統裡的生物資訊來進行身份的核對。

-----廣告，請繼續往下閱讀-----

當系統裡存有說話者的聲紋資訊後，其實就就能快速的進行一對一的說話者身份驗證（speaker verification），或是進行一對多的說話者辨認（speaker identification），從眾多人找出誰是說話者^[3]。

聲紋辨識不只可以抓犯人，還可以……

上述的聲紋辨識，是不是會讓你聯想到在看影集時，劇中的刑警從報案中心的人聲或是搜集回來的錄音檔中，辨識出報案人或犯人的身份。一般大家的印象會覺得聲紋辨識只會出現在刑事調查中，但其實日常生活中已經有用到聲紋來辨識身份囉！比如，智慧型手機的語音助理，只要說出關鍵詞：「嘿，Siri」、「OK Google」就能啟動AI回應。

其實，這個過程就是擷取聲音特徵，並與之前登錄的音檔互相比對，進行說話者的身份認證。除此之外，越來越多的金融機構也開始引進這項技術，憑聲音來確認身份，這樣除了可以取代回答冗長的問題來確認客戶身份、提高便利性外，也同時提高了安全性^[4]。

除了辨識身份，聲紋辨識其實也能應用在其他地方。現在也有許多研究團隊開發各種聲紋科技的應用，例如：透過大數據的聲音比對，由電腦判斷出鳳梨的好壞^[5]、或是辨識青蛙叫聲的APP ^[6]等，這些也都是運用到聲紋辨識的原理。想必聲紋科技的發展會是一種趨勢，未來會有越來越多的場合都能運用此技術，讓我們拭目以待！

-----廣告，請繼續往下閱讀-----

現今生活中越來越多使用聲紋辨識技術。比如，現代人不可分開的智慧型手機，對手機的語音助理說出關鍵台詞，就能啟動AI的回應。圖/freepik

參考資料：

王小川。（2009）。說話人辨認。語音訊號處理（第二版，頁12-2 – 12-12）。全華圖書。清華大學電機系。淺談語者辨認。http://web.ee.nthu.edu.tw/p/404-1175-11508.php?Lang=zh-tw
Phonexia. (n.d). What Is Voice Biometrics?https://www.phonexia.com/knowledge-base/voice-biometrics-essential-guide/
緒方憲太郎。（2022）。語音科技將會如何改變未來。聲音經濟學（林詠譯，頁159-191）。商周出版。
洪明生、蘇晟維。（2022/12/11）。大數據聲紋比對判斷好壞選鳳梨用「聽」的！ Yahoo！新聞。取自：https://bit.ly/3Vrh2Hf
上游新聞市集。（2022/8/25）。現在是哪隻青蛙在叫？「蛙抵家」APP幫你聽聲認蛙！青蛙辨識軟體，揪你幫台灣錄蛙聲。取自：https://today.line.me/tw/v2/article/7NjZrr8