0

0
0

文字

分享

0
0
0

Google 搜尋預測、拼字檢查、與即時翻譯背後的統計模型:n-gram

活躍星系核_96
・2013/06/17 ・2112字 ・閱讀時間約 4 分鐘 ・SR值 537 ・八年級

文 / T.S.Yo

n-gram, the final frontier, 喔,不是,更正:是一種統計模型,源自於夏農Claude Shannon)的資訊理論information theory),而主要應用在「自然語言處理」(natural language processing)跟「基因序列分析」(genetic sequence analysis)的研究上。

馬可夫鏈與 n-gram

簡單的說,這個統計模型就是一種馬可夫模型Markov model)。好吧,我承認這樣講沒有比較簡單。馬可夫鏈,用白話說,就是同類型的事件(不同的狀態)依序發生的機率,舉例來說,假設天氣有三種狀態:「晴天」、「陰天」跟「雨天」。如果昨天是雨天,那麼今天是「雨天」的機率,會跟昨天是「晴天」而今天是「雨天」的機率有所不同,這是因為我們相信天氣現象在時間上有某種連續性,前面發生的狀態會影響到後面發生的狀態,而馬可夫模型就是描述這種前後關係的數學語言。

一個完整的馬可夫模型,需要列舉所有狀態的條件機率。以前面天氣的例子來說,就是要列舉出「今天是晴天,明天會是晴天、陰天、雨天各自的機率」,以及「今天是陰天」和「今天是雨天」而明天各會是三種天氣的機率,總共有九個。如果我們把天氣的分類分得更細,種類更多,那麼這個馬可夫模型就會變得更複雜。

然而,從邏輯上我們可以推測,「前天的天氣」可能影響到「昨天的天氣」,進而影響到「今天的天氣」以及「明天的天氣」,所以前面所提到的馬可夫鏈,其實是假設了「只有前一天的天氣會影響到之後的天氣,之前的都無關緊要」,這就是最簡單的「一階馬可夫鏈」。如果我們放寬了這個假設,把「前N天的天氣」都納入考慮,那麼就成了「N階馬可夫鏈」,這是也是馬可夫模型的複雜形態之一。

-----廣告,請繼續往下閱讀-----

當然,數學模型描述的是抽象層次的符號,所以前面例子裏的「天氣」可以代換成其他任意「有前後關係」的序列(sequence),例如「文字」。

讓我們繼續拿「天氣」當作例子,不過這次講的是「天」跟「氣」的關係:當「天」這個字出現的時候,後面接著是「氣」這個字的機率是多少?相信說到這裏,有用過各種中文輸入法的人,大概都已經知道關於這種「關係」的知識應用到生活中的哪些地方了。而這種知識的基礎,「字頻」跟「詞頻」,也是構成 n-gram 模型的基礎。

中文的「字」是文字的最小單位,也就是 n=1 的狀況,稱作 unigram (uni 即「單一」),一種語言的「字頻」也就是該語言的 unigram model。從馬可夫鏈的角度來看,因為前後的關係項為零,這是一種「0 階馬可夫鏈」。

然後是「二字詞」,就像前面說的「天氣」,「天」後面接著各種字的機率,構成了 n=2 的狀況,bigram(bi 是「二」的字首),這也是一種一階馬可夫鏈:前一個狀態跟下一個狀態的關係。依此類推,我們可以進一步去建立 n=3,4,5… 的統計模型,而這些模型的集合,就是所謂的 n-gram 模型。

-----廣告,請繼續往下閱讀-----

與傳統馬可夫模型不同的是,n-gram 裏每一個 gram 的可能狀態(在天氣的例子裏是「天氣類型」,在文字的例子理則是「字的種類」)通常很多,接近無限大。以前面的例子來看,我們可以把天氣分成簡單的幾類,但是中文裏的「字」,常用的就有 3000-5000 個,就算不計那些罕用字跟古字、自創字,要描述一個 5000×5000 = 兩千五百萬個機率的 bi-gram 模型也是一個不小的工程 。所幸的是,這兩千五百萬個機率有很多是接近於零的,例如:「美麗」這個詞出現的頻率很高,但是「美痢」可能就不會出現在任何地方(好吧,至少在這篇文章理出現過一次 XD)。因此, n-gram 模型不必詳述馬可夫模型裏的每個機率,有很多「不曾發生」的項目就直接以「趨近於零」來代表即可。

也由於這個特性,n-gram 模型相關的演算法和理論研究,很多都會特別處理這些「接近於零」的機率,讓整體的計算更加精確有效率。

n-gram 與 Google

如果從馬可夫鏈算起,n-gram 模型就不算是什麼非常新穎的概念,但其實際的應用卻可以說是跟隨著 Google 的成長而發揚光大。Google 在為所有的網頁編製目錄的同時,也統計了所有編目網頁裏的文字,形成一個非常大的 n-gram 模型,作為「搜尋」、「拼字檢查」、「翻譯」以及其他技術的基礎,同時 Google 也把他們統計出來的資料庫公佈在網路上,讓大眾免費使用。

Google 的翻譯演算法,跟傳統「查字典」的方法不同,而是依據 n-gram 的機率來推導,在某次公開的演講上,Google 的研發人員表示,這個方法效果本來一直都不佳,但是當 n-gram 資料庫大到某個程度時(more than billions of entries, 大於10億筆),翻譯的效果突然變得比傳統方法更精確。這也是這十年來「人工智能」由「規則」取向轉為「統計學習」取向的例子之一,「大量資料」和「高速計算」是在背後推動這項轉變的兩大動力。

-----廣告,請繼續往下閱讀-----

雖然 n-gram 的發展與語言的應用息息相關,但是正如前面所說的,「數學處理的是抽象層次的問題」,因此近年來 n-gram 的技術也逐漸應用到其他不同類型的「序列」上。「音樂」是一個常見的應用:音階的前後關係,樂句的前後關係….等等,也都有人開始嘗試以 n-gram 模型來分析。

總之,統計模型的功用可以相當廣泛,Google 示範了 n-gram 的強大功能,相信未來還會有更多有趣的應用。

本文原發表於作者部落格Esse, of Something

-----廣告,請繼續往下閱讀-----
文章難易度
活躍星系核_96
778 篇文章 ・ 127 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

1
0

文字

分享

0
1
0
從認證到實踐:以智慧綠建築三大標章邁向淨零
鳥苷三磷酸 (PanSci Promo)_96
・2024/11/15 ・4487字 ・閱讀時間約 9 分鐘

本文由 建研所 委託,泛科學企劃執行。 


當你走進一棟建築,是否能感受到它對環境的友善?或許不是每個人都意識到,但現今建築不只提供我們居住和工作的空間,更是肩負著重要的永續節能責任。

綠建築標準的誕生,正是為了應對全球氣候變遷與資源匱乏問題,確保建築設計能夠減少資源浪費、降低污染,同時提升我們的生活品質。然而,要成為綠建築並非易事,每一棟建築都需要通過層層關卡,才能獲得標章認證。

為推動環保永續的建築環境,政府自 1999 年起便陸續著手推動「綠建築標章」、「智慧建築標章」以及「綠建材標章」的相關政策。這些標章的設立,旨在透過標準化的建築評估系統,鼓勵建築設計融入生態友善、能源高效及健康安全的原則。並且政府在政策推動時,為鼓勵業界在規劃設計階段即導入綠建築手法,自 2003 年特別辦理優良綠建築作品評選活動。截至 2024 年為止,已有 130 件優良綠建築、31 件優良智慧建築得獎作品,涵蓋學校、醫療機構、公共住宅等各類型建築,不僅提升建築物的整體性能,也彰顯了政府對綠色、智慧建築的重視。

-----廣告,請繼續往下閱讀-----

說這麼多,你可能還不明白建築要變「綠」、變「聰明」的過程,要經歷哪些標準與挑戰?

綠建築標章智慧建築標章綠建材標章
來源:內政部建築研究所

第一招:依循 EEWH 標準,打造綠建築典範

環境友善和高效率運用資源,是綠建築(green building)的核心理念,但這樣的概念不僅限於外觀或用材這麼簡單,而是涵蓋建築物的整個生命週期,也就是包括規劃、設計、施工、營運和維護階段在內,都要貼合綠建築的價值。

關於綠建築的標準,讓我們先回到 1990 年,當時英國建築研究機構(BRE)首次發布有關「建築研究發展環境評估工具(Building Research Establishment Environmental Assessment Method,BREEAM®)」,是世界上第一個建築永續評估方法。美國則在綠建築委員會成立後,於 1998 年推出「能源與環境設計領導認證」(Leadership in Energy and Environmental Design, LEED)這套評估系統,加速推動了全球綠建築行動。

臺灣在綠建築的制訂上不落人後。由於臺灣地處亞熱帶,氣溫高,濕度也高,得要有一套我們自己的評分規則——臺灣綠建築評估系統「EEWH」應運而生,四個英文字母分別為 Ecology(生態)、Energy saving(節能)、Waste reduction(減廢)以及 Health(健康),分成「合格、銅、銀、黃金和鑽石」共五個等級,設有九大評估指標。

-----廣告,請繼續往下閱讀-----

我們就以「台江國家公園」為例,看它如何躍過一道道指標,成為「鑽石級」綠建築的國家公園!

位於臺南市四草大橋旁的「台江國家公園」是臺灣第8座國家公園,也是臺灣唯一的濕地型的國家公園。同時,還是南部行政機關第一座鑽石級的綠建築,其外觀採白色系列,從高空俯瞰,就像在一座小島上座落了許多白色建築群的聚落;從地面看則有臺南鹽山的意象。

因其地形與地理位置的特殊,生物多樣性的保護則成了台江國家公園的首要考量。園區利用既有的魚塭結構,設計自然護岸,保留基地既有的雜木林和灌木草原,並種植原生與誘鳥誘蟲等多樣性植物,採用複層雜生混種綠化。以石籠作為擋土護坡與卵石回填增加了多孔隙,不僅強化了環境的保護力,也提供多樣的生物棲息環境,使這裡成為動植物共生的美好棲地。

台江國家公園是南部行政機關第一座鑽石級的綠建築。圖/內政部建築研究所

第二招:想成綠建築,必用綠建材

要成為一幢優秀好棒棒的綠建築,使用在原料取得、產品製造、應用過程和使用後的再生利用循環中,對地球環境負荷最小、對人類身體健康無害的「綠建材」非常重要。

-----廣告,請繼續往下閱讀-----

這種建材最早是在 1988 年國際材料科學研究會上被提出,一路到今日,國際間對此一概念的共識主要包括再使用(reuse)、再循環(recycle)、廢棄物減量(reduce)和低污染(low emission materials)等特性,從而減少化學合成材料產生的生態負荷和能源消耗。同時,使用自然材料與低 VOC(Volatile Organic Compounds,揮發性有機化合物)建材,亦可避免對人體產生危害。

在綠建築標章後,內政部建築研究所也於 2004 年 7 月正式推行綠建材標章制度,以建材生命週期為主軸,提出「健康、生態、高性能、再生」四大方向。舉例來說,為確保室內環境品質,建材必須符合低逸散、低污染、低臭氣等條件;為了防溫室效應的影響,須使用本土材料以節省資源和能源;使用高性能與再生建材,不僅要經久耐用、具高度隔熱和防音等特性,也強調材料本身的再利用性。


在台江國家公園內,綠建材的應用是其獲得 EEWH 認證的重要部分。其不僅在設計結構上體現了生態理念,更在材料選擇上延續了對環境的關懷。園區步道以當地的蚵殼磚鋪設,並利用蚵殼作為建築格柵的填充材料,為鳥類和小生物營造棲息空間,讓「蚵殼磚」不再只是建材,而是與自然共生的橋樑。園區的內部裝修選用礦纖維天花板、矽酸鈣板、企口鋁板等符合綠建材標準的系統天花。牆面則粉刷乳膠漆,整體綠建材使用率為 52.8%。

被建築實體圍塑出的中庭廣場,牆面設計有蚵殼格柵。圖/內政部建築研究所

在日常節能方面,台江國家公園也做了相當細緻的設計。例如,引入樓板下的水面蒸散低溫外氣,屋頂下設置通風空氣層,高處設置排風窗讓熱空氣迅速排出,廊道還配備自動控制的微噴霧系統來降溫。屋頂採用蚵殼與漂流木創造生態棲地,創造空氣層及通風窗引入水面低溫外企,如此一來就能改善事內外氣溫及熱空氣的通風對流,不僅提升了隔熱效果,減少空調需求,讓建築如同「與海共舞」,在減廢與健康方面皆表現優異,展示出綠建築在地化的無限可能。

-----廣告,請繼續往下閱讀-----
島式建築群分割後所形成的巷道與水道。圖/內政部建築研究所

在綠建材的部分,另外補充獲選為 2023 年優良綠建築的臺南市立九份子國民中小學新建工程,其採用生產過程中二氧化碳排放量較低的建材,比方提高高爐水泥(具高強度、耐久、緻密等特性,重點是發熱量低)的量,並使用能提高混凝土晚期抗壓性、降低混凝土成本與建物碳足跡的「爐石粉」,還用再生透水磚做人行道鋪面。

2023 年優良綠建築的臺南市立九份子國民中小學。圖/內政部建築研究所
2023 年優良綠建築的臺南市立九份子國民中小學。圖/內政部建築研究所

同樣入選 2023 年綠建築的還有雲林豐泰文教基金會的綠園區,首先,他們捨棄金屬建材,讓高爐水泥使用率達 100%。別具心意的是,他們也將施工開挖的土方做回填,將有高地差的荒地恢復成平坦綠地,本來還有點「工業風」的房舍告別荒蕪,無痛轉綠。

雲林豐泰文教基金會的綠園區。圖/內政部建築研究所

等等,這樣看來建築夠不夠綠的命運,似乎在建材選擇跟設計環節就決定了,是這樣嗎?當然不是,建築是活的,需要持續管理–有智慧的管理。

第三招:智慧管理與科技應用

我們對生態的友善性與資源運用的效率,除了從建築設計與建材的使用等角度介入,也須適度融入「智慧建築」(intelligent buildings)的概念,即運用資通訊科技來提升建築物效能、舒適度與安全性,使空間更人性化。像是透過建築物佈建感測器,用於蒐集環境資料和使用行為,並作為空調、照明等設備、設施運轉操作之重要參考。

-----廣告,請繼續往下閱讀-----

為了推動建築與資通訊產業的整合,內政部建築研究所於 2004 年建立了「智慧建築標章」制度,為消費者提供判斷建築物是否善用資通訊感知技術的標準。評估指標經多次修訂,目前是以「基礎設施、維運管理、安全防災、節能管理、健康舒適、智慧創新」等六大項指標作為評估基準。
以節能管理指標為例,為了掌握建築物生命週期中的能耗,需透過系統設備和技術的主動控制來達成低耗與節能的目標,評估重點包含設備效率、節能技術和能源管理三大面向。在健康舒適方面,則在空間整體環境、光環境、溫熱環境、空氣品質、水資源等物理環境,以及健康管理系統和便利服務上進行評估。

樹林藝文綜合大樓在設計與施工過程中,充分展現智慧建築應用綜合佈線、資訊通信、系統整合、設施管理、安全防災、節能管理、健康舒適及智慧創新 8 大指標先進技術,來達成兼顧環保和永續發展的理念,也是利用建築資訊模型(BIM)技術打造的指標性建築,受到國際矚目。

樹林藝文綜合大樓。圖/內政部建築研究所「111年優良智慧建築專輯」(新北市政府提供)

在興建階段,為了保留基地內 4 棵原有老樹,團隊透過測量儀器對老樹外觀進行精細掃描,並將大小等比例匯入 BIM 模型中,讓建築師能清晰掌握樹木與建築物之間的距離,確保施工過程不影響樹木健康。此外,在大樓啟用後,BIM 技術被運用於「電子維護管理系統」,透過 3D 建築資訊模型,提供大樓內設備位置及履歷資料的即時讀取。系統可進行設備的監測和維護,包括保養計畫、異常修繕及耗材管理,讓整棟大樓的全生命週期狀況都能得到妥善管理。

智慧建築導入 BIM 技術的應用,從建造設計擴展至施工和日常管理,使建築生命周期的管理更加智慧化。以 FM 系統 ( Facility Management,簡稱 FM ) 為例,該系統可在雲端進行遠端控制,根據會議室的使用時段靈活調節空調風門,會議期間開啟通往會議室的風門以加強換氣,而非使用時段則可根據二氧化碳濃度調整外氣空調箱的運轉頻率,保持低頻運作,實現節能效果。透過智慧管理提升了節能效益、建築物的維護效率和公共安全管理。

-----廣告,請繼續往下閱讀-----

總結

綠建築、綠建材與智慧建築這三大標章共同構建了邁向淨零碳排、居住健康和環境永續的基礎。綠建築標章強調設計與施工的生態友善與節能表現,從源頭減少碳足跡;綠建材標章則確保建材從生產到廢棄的全生命週期中對環境影響最小,並保障居民的健康;智慧建築標章運用科技應用,實現能源的高效管理和室內環境的精準調控,增強了居住的舒適性與安全性。這些標章的綜合應用,讓建築不僅是滿足基本居住需求,更成為實現淨零、促進健康和支持永續的具體實踐。

建築物於魚塭之上,採高腳屋的構造形式,尊重自然地貌。圖/內政部建築研究所

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
211 篇文章 ・ 312 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia