編按:深度學習是目前AI發展的核心技術,特別是在影像辨識和自然語言的處理,最能發揮優勢,本篇文章將介紹最具代表性的深度學習技術和最新的應用案例。
CNN(卷積神經網路)的架構
CNN 原本的設計是用來模仿人類視覺功能,因此影像辨識是其主要的應用,
最近已經逐漸擴大應用範圍,訊號和自然語言處理也開始使用 CNN 了。
卷積神經網路 (Convolutional Neural Network,CNN) 是一種神經
網路模型,常用來處理規則排列的影像資料。CNN 這個名稱是從處理時使
用名為卷積 (convolution) 的數學運算而來。
下圖是 CNN 神經網路的基本架構,從圖中可以看到在輸入層和輸出層
之間,多了卷積層和池化層,兩者可以視為是一種過濾器。
RNN(循環神經網路)的架構
RNN 與 CNN 都是最具代表性的深度學習模型。RNN 很擅長自然語言處理這類時間序列的資料,近來也常用於物聯網與機器異常檢測的應用。
RNN(Recurrent Neural Network,循環神經網路)是可以處理不定長度資料的神經網路。下圖說明了 RNN 的基礎結構。從圖中可以看出 RNN與 CNN 最大的不同在於,RNN 具有回饋 (Feedback) 機制,也就是在隱藏層中輸入前一次的輸出值 h。
生成模型與 GAN(對抗式生成網路)——生成影像資料的技術
深度學習不僅可以辨識影像和聲音,也可以用來產生新資料。近年來,用神經
網路來生成文章、影像等技術不斷提升,相關的商業應用正不斷擴大發展中。
機器學習的分類模型有識別模型 (Discriminative Model) 和生成模型 (Generative Model) 兩種。常見的識別模型能預測輸入資料屬於各類別的機率,例如用 CNN 識別影像,並得到像狗 80 %、貓 20 %的機率輸出。
生成模型也會輸出屬於各類別的機率,但會先從大量的訓練資料中,推導出各類別適合的機率分佈,然後在預測新資料時,即可依新資料的分佈結果計算其機率。這裡所謂的機率分佈就如下圖所示,假設資料有 ○ 和 × 兩個類別,依照各類別樣本分佈的情形,就可推測出其機率分佈的範圍,也就是圖中橢圓的部份,而越靠近橢圓中心的資料,有較高的機率屬於該類別。
結合數位替身與 AI 生物辨識的行動銀行
美國的軟體公司 Sensory 多年來持續開發有關語音辨識的嵌入式裝置技術,該公司是使用名為 Virtual Teller 的 AI,開發了適用在行動銀行的解決方案。透過 Virtual Teller,使用者可以如同在櫃檯與服務人員溝通一般,虛擬人員對話同時進行交易。身份認證方面,則使用了語音辨識和人臉辨識的 AI 生物辨識技術以提高安全性。
此外,進行認證的 AI 內建於智慧型手機的應用程式中,因此取得的生物資訊不會上傳到網路。為了與智慧型手機的「數位替身」順暢對話,也搭載了語音辨識和語音合成功能,以提高互動效果。Sensory 透過將 AI 建置於手機軟體中,實現了高安全性且易於使用的使用者介面。