作者:官大為(Wiwi)
在上篇文章,我提到了產生音樂的(其中)六個流程:「想法→保存想法→觸發樂器→樂器→聲音→保存聲音」,並且說了數位音樂科技在這六個流程裡都可以幫助音樂家。
今天的故事要從最後一個流程「保存聲音」說起。2014 年的現在,人們最常使用的保存聲音的方式,就是「聲音檔案」(Audio File)了,您在網路上聽到的所有聲音,包含 MUZIK ONLINE 上的每一首音樂,YouTube 上影片的聲音部分,都是使用某種聲音檔案格式來儲存的。所以,聲音檔案裡面到底裝的是什麼東西?為什麼它可以儲存聲音?
什麼是「數位」?
首先我要來釐清一下名詞。這系列文章的標題其實是三個字組成的:「數位」、「音樂」和「科技」,我想大家比較會有疑慮的是「數位」這個字,「數位」到底是什麼意思?
「數位」這個字的簡單的定義是:「用數字,來描述、處理、保存事情」。也就是說,這一系列的文章也會跟數字和數學很有關聯喔!
畫素
為了讓您更能想像聲音檔案的運作方式,我想先介紹一下圖片檔案。
現在網路上最流行的圖片檔案格式叫做 JPEG,您在 Facebook 上看到的每一張照片,都是使用這個方式儲存的。JPEG 檔案(以及其他大部份的圖片檔案)裡面裝的是什麼呢?它裡面有很多「畫素」(pixel)。
您在電腦或手機螢幕上,看到的所有東西,都是由一個一個細小的小方格組成的,因為這些小方格太小了,平常您不會注意到它們的存在,所以我要把它們放大給您看清楚。
首先,您可能會發現一個有趣的事情:在螢幕上你看起來像是全黑的文字,其實它的邊緣不是真正全黑的。
在這裡您看到的每一個小方格,就是一個「畫素」。現代電腦儲存一張黑白圖片檔案的方式,就是測量每一個畫素的亮度,然後給它一個範圍是 0 到 255 的數字,0 表示最暗(也就是純黑),255 表示最亮(純白),中間的數值代表各種不同深淺的灰色。
所以,在黑白圖片檔案中,每一個畫素,就是一個範圍是 0 到 255 的數字(註 1),集合夠多的畫素,您就得到了一張圖片。
聲音檔案的「畫素」
在聲音檔案中,與「畫素」相對應的東西叫做「取樣」(sample)。您可以想樣,一個「取樣」就是一小小小小小段聲音,跟「畫素」一樣,也是用一個數字來代表。 不過您可能會想,我們要怎麼用數字來形容聲音呢?就像在圖片檔案裡,我們用一個數字來描述一小塊圖片的「亮度」;在聲音檔案裡,我們用一個數字來描述一小段時間內的「空氣密度」。
聲音檔案的運作方式其實超乎想像地簡單:您可能還記得在高中物理課的時候學到的,聲音是一種「疏密波」,也就是說您大腦覺得的「聲音」,其實只是您的耳朵偵測到周遭空氣分子的密度變化,傳送訊號給大腦後產生的幻覺而已。
如上圖,當左方的喇叭在震動的時候,會造成周圍的空氣分子在某些地方的密度比較高、有些地方比較低。然後您只要拿一個「空氣分子密度偵測器」(俗稱「麥克風」),去測量當下的空氣密度,當空氣密度高的時候,給它一個大數字,而密度低的時候,給它一個小數字就可以了。
然後當您不斷地、一直一直重複測量空氣密度之後,您就會得到⋯⋯一大堆數字。沒錯,您每天聽到的網路上的聲音、下載的每一首 MP3 音樂檔案,就只是一大堆敘述空氣密度的數字而已,電腦可以讀取這些數字,然後再透過您的音響重現記錄好的空氣密度變化。
聲音檔案的解析度
聲音檔案的品質基本上由兩個因素決定:第一是我們用多大的數字範圍來敘述一個當下的空氣密度,第二是我們每一秒鐘敘述空氣密度幾次。 我們剛開始說了,一般的黑白圖片檔案,是用 0 到 255 的數字來表達一個畫素的亮度,也就是說,從全黑到全白,圖片檔案可以記錄 256 種不同深淺的灰色。
一般聲音檔案的解析度比這高得多,從空氣最稀疏到最密集,我們是用範圍 0 到 65,535 的數字來表示,而在專業用途的聲音檔,數字的範圍更大(註 2)。
我們把每一秒鐘,聲音檔案記錄空氣密度的次數,稱為「取樣頻率」(sample rate)。現在最常被使用的取樣頻率是 44,100 Hz,也就是每秒鐘記錄空氣密度 44,100 次。
換句話說,在一般您每天使用的聲音檔案,每一秒鐘的聲音,就是 44,100 個、範圍是 0 到 65,535 的數字。那是非常非常多的數字耶,這也就是我們為什麼叫它「數位」音樂的原因了。
還有更多 所以您現在知道了,您每天聽的聲音檔案,裡面裝的只是一大堆、敘述空氣密度的數字而已。那麼,在人類發明電腦來儲存一大堆數字之前,我們又是怎麼儲存聲音的呢?
關於「保存聲音」的故事還沒說完,我們下篇繼續喔!
(文/Wiwi)
註 1:在彩色圖片中,每一個畫素則是用「三個」範圍是 0 到 255 的數字表示,分別代表紅色、綠色、藍色的亮度。
註 2:在專業錄音設備使用的檔案,敘述空氣密度的數字範圍通常是 0 到 16,777,215。