0

0
0

文字

分享

0
0
0

書到底會不會暢銷?靠電腦來「占卜」一下—《暢銷書密碼》

PanSci_96
・2016/12/06 ・3659字 ・閱讀時間約 7 分鐘 ・SR值 518 ・六年級

電腦當然不會閱讀,至少和你閱讀本書的方式很不一樣。不過電腦可以用處理程式語言的方法讀書,它們先「看書」(也就是先接收資料),再把資料區分為人類所謂的意義單元,像是字母、標點、字詞、句子和章節等。所以電腦的確能模仿人類閱讀,而且訓練過程愈嚴謹,理解程度就愈擬真。而人類讀者和機器讀者的差別在於,人類知道他們閱讀的內容有意義。話雖如此,電腦的閱讀方法卻能讓我們更接近小說描繪的細節,就連閱書無數的文評也甘拜下風。那是因為電腦擅長辨識模式,而且可以大規模處理模式和細節,但人類卻沒有辦法做到。

4902216441_a1aa1f7af7_z
電腦可以用處理程式語言的方法讀書,也就是先接收資料,再把資料區分為人類所謂的意義單元。圖 / By Katy Tresedder @ flickr, CC BY-NC-ND 2.0

大家想想我們的研究初衷:暢銷書到底能不能預測?想做預測,就要先剖析過去重複發生的模式。除非你會占卜,否則預測未來靠的是熟悉歷史。一般來說,在字裡行間尋找有意義的模式是文評或學者的工作。著有《千面英雄》的神話學者坎伯,傾其一生研讀世界各地的故事,還刻意訓練他的眼睛去辨識這些故事的相似之處。他可是辨認模式的大師,但儘管如此,一個人一輩子能做的終究有限,不論是閱讀的數量或觀察的細膩程度。辨認模式既要看微觀的細節,也要看宏觀的趨勢,而人類在這兩個面向都有規模上的限制。

我們也很佩服克里斯多福.布可的毅力。他花費三十年、閱讀數百本書,就是為了發展他的理論:所有文學作品和故事都脫不了七種基本情節。或許他花了四十年、讀了一千本書,又或許他比我們都還會記憶書中內容。但幾部經過訓練的電腦,可以在一天之內就讀完數千本小說,消化完數千筆資料,而且絲毫不放過人類可能會忽略或習以為常的各種細節。

舉個例子吧。我們在閱讀的時候,尤其是受過訓練、擅長捕捉細節的讀者,都會注意到作者使用了哪些形容詞。但我們大概不會注意到名詞和形容詞之間的比例,這個比例代表了作者有多常使用形容詞去描述一個名詞。電腦可以輕易找出這種資訊,讓我們更清楚作者的敘事方式與風格。電腦不僅可以縝密搜索,還可以比較這本書和另外上千本書的差異。如果電腦發現暢銷書裡形容詞與名詞的比例偏高或偏低,那這個寫作特徵就很重要了。

下次你找書來看的時候,不妨做個實驗,別管朋友的推薦也不要執著於熟悉的作者和類型,試著連續一週都只看《紐約時報》暢銷榜上的書。如果你讀得夠仔細,你就會變得有點像我們的電腦,不論是文學作品或大眾讀物、男性書籍或女性書籍、明星作家的小說或普立茲獎得獎作品,你都能開始看出各種書籍之間意外的共同模式。

有些模式可能會讓你很驚訝,譬如說,你會納悶為什麼女主角通常都是二十八歲。這重要嗎?你可能會問自己:如果一本小說長達 400 頁,作者是不是刻意把第一場床戲安排在第 200 頁?如果全書只有 220 頁,那第一場床戲則會落在第 110 頁。如果真是這樣,為什麼?你可能會和朋友討論,小說若有一個吸引人的開頭卻沒有一個讓人滿意的結局,銷量會不會受到影響?搞不好你還會覺得這些分屬不同類型的暢銷書有太多潛在的共同點了,根本可以自成一派。

有趣的是,讀者在不知不覺中對這些模式很有感覺。「文學神經科學」是一門新興的研究領域,學者利用核磁共振來掃描測試對象在閱讀時的腦部活動。這項認知心理學的研究是為了瞭解讀者閱讀的時候都在注意什麼。儘管這和我們的方法差很多,但兩種方法都認為,人類對讀物的反應來自於哪些字、用哪種方式排列、出現在哪些句子裡。是字句的組合觸發了讀者的反應。

因此,讓電腦閱讀小說的技術一點也不反傳統,並沒有違背我們慣用的文評方法。事實上,電腦可以「觀察入微」,對各種寫作特徵進行擷取分析,這和傳統研究所使用的方法大同小異。只不過,電腦讓我們有機會從文本當中挖掘出前所未見的深入洞見。

教電腦閱讀與擷取資訊的方法很多。我們寫了各種程式和演算法,可以從書裡擷取詳細資訊,包括每一本書的風格、主題、人物、情緒起伏、場景設定,還有各式各樣看似無關緊要又難以歸類的語言資訊。

寫作書和小說課都經常到小說的幾個重要元素,如主題、情節、寫作風格等,若要從這些面向來分析暢銷書,電腦就需要數百種原始資料,比方說,作者用了多少次的「a」、「the」、「in」和「she」?句號和驚嘆號出現的頻率為何?作者多常用到副詞,使用得是否準確?這些微小細節其實對讀者影響頗大。想想夏綠蒂.勃朗特在《簡愛》裡的這句話,就可以看出代名詞有多重要:

讀者,我嫁給他了。

電腦偵測到「他」這個字,也注意到「他」和敘事者「我」在句子裡靠得很近。此外,電腦也發現「我」和「他」在愈來愈多句子裡同時出現,而且彼此間的距離愈來愈近。當然,讀者也會注意到這件事。許多故事的重點不就是要讓「我」和「他」在一起嗎?要把兩者連在一起的最佳動詞不就是「嫁給」嗎?往往,這就是讓我們一頁又一頁不停讀下去的理由。

9300068725_043a5771e5_z
夏綠蒂.勃朗特在《簡愛》。圖 / By Berenice @ flickr, CC BY-NC 2.0

問號和驚嘆號也提供我們很多資訊。但你可能記得高中老師教過,驚嘆號用得愈少愈好。如果每個句子都在尖叫(我的天!),或每句對話都是命令(不准動!),或嘶喊(啊!),或一直發現夜裡不寧靜(砰!),那你的讀者可能會心臟無力。驚嘆號的使用可以讓我們看出一本小說的聳動程度以及作者的寫作功力。同樣道理,出現問號常常表示有對話發生,如果一連串的敘述文字好幾頁都沒有出現問號,會讓讀者閱讀的速度和興致都降下來。而這些屬於作者個人風格的微妙寫作習慣,都會在第四章討論到。

我們剛開始研究的時候,擷取了超過 20,000 種寫作特徵,驚嘆號和「他」只是其中的兩個。我們每一種都認真研究,有些特徵讓我們看出風格,有些讓我們更理解情節和故事設定,還有一些讓我們瞭解小說的題材。但並非所有特徵都可以用來判斷小說的暢銷指數;有的小說甫上市即銷售一空,有的小說即便寫得很好,卻銷售平平,到底差異何在?

我們發現,數字的使用不太會影響銷售成績,例如 911、1984、867-5309、$1,000,000。作者在小說裡有沒有用到數字,或使用數字的頻率高低,都不會造成影響。同樣地,我們花了很多時間,訓練電腦準確判斷《穿著 Prada 的惡魔》場景設在紐約,《控制》則是從紐約開始,最後到了密蘇里。但其實地理場景設定對銷量的影響也不大(除了少數例外),以紐約為背景的冷門書和暢銷書一樣多。當然,有很多超級暢銷書都是以紐約為背景,隨便舉幾個例子就包括了希維雅.黛的《謎情柯洛斯 I:坦誠》、湯姆.沃爾夫的《走夜路的男人》、詹姆斯.派特森的《匆忙》以及薩佛蘭.佛爾的《心靈鑰匙》,但這些都只是剛好,寫紐約不見得真的會大賣。

到最後,我們去蕪存菁,從 20,000 種寫作特徵中篩選出 2,800 種,這些特徵對於小說暢銷程度有較顯著的影響。我們在訓練電腦閱讀並擷取寫作特徵之後,又用另一套電腦程式來分析暢銷小說潛在的共通模式。我們在分析階段所使用的方法稱做「機器學習」。在文字探勘的領域裡,我們往往利用文本之間的相似處來做分類。舉例來說,我們想分辨垃圾郵件和一般郵件,而通常垃圾郵件都有些共同點,像錯別字、商品名稱不斷出現等,我們便可依此寫出一套程式來檢測一封電子郵件是不是垃圾信。

15274871357_e048126b58_z
垃圾郵件都有些共同點,像錯別字、商品名稱不斷出現等,我們便可依此寫出一套程式來檢測一封電子郵件是不是垃圾信。圖 / By Judith E. Bell @ flickr, CC BY-SA 2.0

我們將小說分類的方法其實和過濾電子郵件很類似。假設我們想預測一本沒有看過的新書會不會暢銷,而我們已經握有很多暢銷書(非垃圾郵件)和冷門書(垃圾郵件),我們就可以把這些書都匯入電腦,並訓練電腦根據顯著的寫作特徵去辨識這兩種書籍。我們在做的就是這些事。我們用了三種不同的分類方法,最後把結果平均起來,發現電腦不但可以預測一本新書能否暢銷,準確度還高達八成。


1124-%e6%9a%a2%e9%8a%b7%e6%9b%b8%e5%af%86%e7%a2%bc-%e6%ad%a3%e5%b0%81300

 

本文摘自《暢銷書密碼:人工智慧帶我們重新理解小說創作》,雲夢千里出版。


數感宇宙探索課程,現正募資中!

文章難易度
PanSci_96
989 篇文章 ・ 677 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。


1

1
0

文字

分享

1
1
0

為什麼吃甜的會蛀牙?——《生活中的東西都可以寫成化學式》

快樂文化
・2022/05/09 ・1404字 ・閱讀時間約 2 分鐘

來談談我們的敵人——蛀牙。

蛀牙的化學物語

導致蛀牙的主要原因有兩個。前面提過的蛀牙菌是其中一個因素,而蛀牙菌具體的名稱為「轉糖鏈球菌」,據說這種細菌常在孩童約三歲以前經由大人傳染,原因包括使用父母用過的筷子和湯匙,或輪流喝飲料等;另一個因素就是食物中所含的糖分,主要成分為「蔗糖」。

這兩個因素結合在一起時,就會發生以下情況:首先,轉糖鏈球菌利用蔗糖製造一種稱為「葡聚糖」的分子。葡聚糖的化學式為(C6H10O5)n,後面會再詳細說明。葡聚糖附著在牙齒表面,會成為轉糖鏈球菌的棲息地。此外,口腔中的其他細菌(根據統計,口腔中的細菌有 600 多種)也會混入其中。

這些附著在牙齒上的組合物稱為「牙菌斑」,有時也被稱為「齒垢」或「生物膜」(biofilm,又稱菌膜)。你可能在牙膏等的廣告中有聽過這些名詞。

之後,獲得棲息地的轉糖鏈球菌會產生大量的「酸」,引發去礦質作用,最終導致蛀牙。這個過程如下列所示。

轉糖鏈球菌生活在溫暖的葡聚糖裡,並分解出乳酸;事實上它們也會分解出醋酸,及一種稱為甲酸(HCOOH)的酸,但乳酸所佔的比例較高。這些酸會引發強烈的去礦質作用,溶解牙齒並造成蛀牙。

在這種情況發生前,必須好好刷牙,以澈底清除黏附在牙齒上的牙菌斑(葡聚糖+細菌)!即使是漱口,具黏性的牙菌斑也不易脫落,最有效的方法還是好好刷牙。而牙膏中含有研磨劑(可幫助去除汙垢的顆粒),能有效去除黏黏的牙菌斑。

不易蛀牙的甜食

上個單元我們說明了糖是如何引起蛀牙的。事實上也有一些分子的味道就和糖一樣甜,但卻不太容易引起蛀牙,其中最有名的分子之一就是「木糖醇」,你可能有聽過加了木糖醇的口香糖吧!這個分子的化學式為 C5H12O5,詳細的結構如下圖。

為什麼木糖醇味道甜甜的,卻不容易引起蛀牙呢?在回答這個問題前,我們先回想一下為什麼蔗糖(糖)會導致蛀牙。蔗糖是轉糖鏈球菌用來製造葡聚糖的材料,而反應過程中產生的果糖,會被轉糖鏈球菌做為養分來源,並分解出乳酸分子。

那木糖醇呢?首先木糖醇不像蔗糖是製造葡聚糖的材料,另外轉糖鏈球菌不會把木糖醇當成養分來源,所以也不會分解出乳酸。因此它們的味道雖然很甜,但卻不容易引起蛀牙。

這裡出現了一個問題。木糖醇和蔗糖的結構看來截然不同,但為什麼味道也是甜甜的呢?若像下圖一樣,稍微改變一下木糖醇的畫法,就會發現它的結構與構成蔗糖的葡萄糖和果糖很像,具有許多羥基這點也非常相似。

——本文摘自《生活中的東西都可以寫成化學式》,2021 年 11 月,快樂文化


數感宇宙探索課程,現正募資中!

所有討論 1
快樂文化
9 篇文章 ・ 7 位粉絲