0

0
0

文字

分享

0
0
0

J. K. 羅琳隱姓埋名寫新作,電腦30分鐘破解她的創作指紋—《暢銷書密碼》

PanSci_96
・2016/12/08 ・4756字 ・閱讀時間約 9 分鐘 ・SR值 538 ・八年級

2013 年 7 月初,某位美國教授接到了一通來自大西洋對岸的電話,話筒另一端的陌生人請他破解一道謎題。一週內,他成為了鎂光燈的焦點,所有的國際報導都是他的消息。

這很像丹.布朗筆下的情節,寫成小說搞不好還能賣出幾百萬冊。但這是真人真事,主角並非《達文西密碼》的羅伯.蘭登,而是派崔克.卓拉;卓拉的研究領域不是象徵符號學而是「文本計量分析」,而這次他要研究的對象也不是天主教教會,而是 J. K. 羅琳。

5854198723_feae53b19f_z
卓拉的研究領域是「文本計量分析」。圖 / By Sven @ flickr

卓拉是資工系教授,專長是用電腦分析文本來推斷作者身分,《星期日泰晤士報》的記者請他調查一本新小說,書名叫《杜鵑的呼喚》,作者是羅勃.蓋布瑞斯。這位作家是個文壇菜鳥,他在英國皇家憲兵隊服役多年後開始創作推理小說。然而,記者手上握有情報,據說根本沒有蓋布瑞斯這個人,這本書真正的作者其實就是大名鼎鼎、寫下《哈利波特》的 J. K. 羅琳。

這是真的嗎?卓拉接下了這個案子,不到三十分鐘,電腦就給出了充分的證據來支持這項情報。但卓拉能證明這本書是羅琳寫的嗎?不能,不過他願意賭一把,於是他將分析結果對外公布。當年的 7 月 13 日,儘管不甘願,羅琳終於承認那是她的作品。

每個人獨一無二的創作指紋

羅琳說,她用「羅勃.蓋布瑞斯」的筆名創作,是因為她必須要假裝成文壇新人,才能得到最真實的評價,否則大家在閱讀之前早有成見。如果你像她一樣曾經賣出過五億本《哈利波特》,就知道在聚光燈或放大鏡底下創作有多困難。所以,她能不能請大家拿掉濾鏡、忽略她的名聲,認真客觀地評價她的小說?

或許不能──除非她冒充成其他人。但羅琳發現,在自己的作品出版以後,要創造一個新身分就沒那麼簡單了。所以她特別挑選了不同的類型、不同的讀者、不同的題材和不同的情節,為的就是要讓自己「心裡的那個傢伙」能夠順利創作;而且如蓋布瑞斯所說,她要「像個男人」。她這次是為成人讀者而寫,不再是青少年小說。儘管她刻意使用了不同的語彙,但羅琳發現,一個人實在很難改變或隱藏她的創作指紋。

多年來累積的「作者分析」與「文本計量分析」都指出,我們每個人都有獨一無二的創作指紋或文字風格。就算羅琳想要放棄自己的風格、刻意使用「羅勃.蓋布瑞斯」的筆觸寫作,文字裡還是有一些丟不掉的習慣和模式。卓拉的電腦才花幾分鐘就偵測了到這些模式,而這都是我們平常容易忽略的小細節,像是介係詞、代名詞和標點符號的使用,這些便造就了一個作家的寫作風格。

8932033483_187b8a780e_z
介係詞、代名詞和標點符號的使用,這些便造就了一個作家的寫作風格。圖 / By Hans Splinter @ flickr, CC BY-ND 2.0

若要分析數千本小說的風格,這工程就比研究第一句話來得複雜多了。實際上,我們的風格分析要先從收集數千種寫作特徵開始,這些寫作特徵都是很普遍的字,像是「of」、「the」、「and」、「a」、「but」等。此外,我們也收集了語法、句長、標點、人稱等資訊,以及作者最常使用的動詞、名詞、形容詞和副詞。

為了找出這些寫作特徵,我們計算了每一本書各種字詞的使用頻率。以《達文西密碼》為例,丹.布朗大概每一百字裡會用到七次定冠詞「the」;但葛里遜在《黑色豪門企業》裡每一百字內使用到「the」的次數不到六次。如果你拿這兩位作者的書讓我們盲測,我們從定冠詞的密集度就可以很有把握地辨別作者身分。在戈馬克.麥卡錫的《長路》裡,「and」是使用頻率第二高的字(最高的是定冠詞「the」);第三高則是「he」,每一百字內會出現四次。代名詞「she」在《長路》中雖鮮少出現,每兩千字才出現一次,但「she」是《杜鵑的呼喚》裡使用頻率第七高的字,每一百字內出現 1.5 次。在安東尼.杜爾的二戰小說裡,男、女主角戲份一樣重要,而「his」和「her」在書中的使用頻率也一樣高(約一百字內出現一次);但是在諾拉.羅伯特的《最後一任男友》裡,「her」的使用頻率是「his」的兩倍。羅伯特不常用到第二人稱「you」,但尼可拉斯.史派克的《手札情緣》和亞當.強森的《沒有名字的人》都經常提到「you」(史派克每一百字以內使用了 1.3 次,強森則是 1.4 次)。這些細節看似瑣碎,但就像人的指紋,微小卻很重要。

我們的模型檢視著每一塊打造風格的磚頭──不只是為小說奠基的磚塊,還包括了凝聚磚塊的水泥──然後讓我們看到這些字如何出現或消失在所有小說裡。當我們一塊一塊檢視這些磚頭時,可以用最微觀的角度去理解作者的風格──他用了多少逗號、多少冒號、多少刪節號,還有各種名詞、介係詞、代名詞與連接詞的使用頻率。我們可以從分析結果看出最常見的基本動詞如「did」和「want」、最常見的基本名詞如「man」和「woman」,以及各種常見的形容詞和副詞的出現頻率。

15526756711_24ec251f65_z
當我們一塊一塊檢視這些磚頭時,可以用最微觀的角度去理解作者的風格。圖 / By mgstanton @ flickr, CC BY-NC-ND 2.0

在這個層次,我們討論的風格差異並不是指句子要寫成「彼得要求用那種常見的園藝工具,可以去蕪存菁的那種設備」,還是「彼得說圓鍬就是好用的鏟子」;我們要說的是,透過文本計量分析,我們可以很快地知道第一句話有幾個定冠詞、幾個介係詞、幾個量詞,而這些字詞的使用頻率和第二句話有什麼差別。第一句話裡面的冠詞、代名詞和介係詞就是風格的表現,因為越是迂迴的句子越需要更多結構上的支撐。而作者的文字風格便可以經由計算寫作特徵的頻率被推斷出來,所以當羅琳下筆的時候,不管她用的名字是「J. K. 羅琳」或「羅勃.蓋布瑞斯」,都還是會透露出她特有的風格記號。

我們把數千本小說輸入到暢銷書量表,並設定程式注意風格的基本元素,電腦就會發現暢銷書作者一貫的風格,以及重複出現的模式。事實上,我們只要輸入 491 個最常出現的單字和標點符號,電腦就有 70% 的機率可以正確判斷一本書是暢銷書還是冷門書;縱使只輸入 148 種寫作特徵,電腦的準確率還是可以高達 68%。而這只是用最常見的文法類單字和標點符號來預測分析,還沒有加入名詞、形容詞、動詞、語法和句型等資料。

當我們研究電腦模型的分析結果,並仔細觀察電腦模型辨識出的暢銷作家寫作特徵,我們開始發現幾個令人著迷的現象。首先來看一些比較概略的發現:助動詞「do」在暢銷書裡出現的機會是冷門書的兩倍,而暢銷書裡出現「very」的頻率只有冷門書的一半。威廉.史壯克和 E. B. 懷特曾在寫作入門課本《英文寫作風格的要素》裡批評「很」這個字是「寄生在文藻池塘裡的水蛭」,相信他們也會認同這個分析結果。至於否定縮寫「n’t」在暢銷書裡出現的頻率則是冷門書的四倍。

各類型的縮寫在暢銷書裡都很常出現,儘管高中老師看了可能會搖頭,覺得這種寫法不夠正式,但縮寫很適合大眾文學,因為敘事語調會因此變得比較親切、真誠、現代,可以贏得讀者的信賴。說書人不管是用第三人稱或第一人稱,都必須要讓讀者有真實感,才會願意繼續讀下去。暢銷書裡情態助動詞的縮寫「-’d」出現頻率是冷門書的十二倍,人稱動詞的縮寫「-’re」或「-’m」則是冷門書的五倍。我們幾乎可以聽到詩人威廉.華茲華斯在墳裡大喊著:「沒錯,就是這樣!語言就是要貼近老百姓!」當代暢銷書顯然很服從華茲華斯的指示。

「okay」在暢銷書裡的比例高三倍。圖/Jonathan Lin@flickr
「okay」在暢銷書裡的比例高三倍。圖/Jonathan Lin@flickr

其他比較不正式的書寫方式也很受到讀者喜愛,像「okay」在暢銷書裡的比例高三倍;經典文學作品中通常不會有「ugh」這個字,但在暢銷書裡卻很常見。此外,暢銷書裡的人物也比較愛問問題,我們發現上榜的小說裡面問號比較多,但是驚嘆號就不見得了,驚嘆號是暢銷書的反指標。暢銷作家都曉得「沒燈了!樓梯要垮了!搞不好有鬼!」只會惹惱讀者;兩個驚嘆號的「我愛你!!」還不如「我愛你。」

刪節號在正式文書裡通常代表刪除或省略的文字,但在暢銷小說裡卻不這麼用,而是用來描述斷斷續續的想法或對話,讀者通常會自行腦補。「他又穿了那件燕尾服,鬍渣還沒刮。老天爺……」大部分的讀者不需要其他的標點符號或單字就知道「老天爺」在這裡不是禱告詞。

我們閱讀的樂趣之一,就是在碰到刪節號時會覺得自己和說書人更加貼近,而暢銷小說常用刪節號就是因為刪節號可以創造出人物與讀者的默契──這招讀者很買單。

我們得承認,對我們這種嗜字如命的人來說,資料分析實在太迷人。你可以想像我們全盯著一張大試算表,手上捧著咖啡,沒想到「thing」這個詞在暢銷書裡出現的頻率是冷門書的六倍。其他文字愛好者一定也會坐在那裡苦思良久,和我們一樣納悶像是「thing」這樣瑣碎的小字怎麼能當做暢銷書的指標。但這份文字研究不光是滿足我們文字宅的痴念,而是真的要解開暢銷書密碼,這些資料可以告訴我們哪些書能大賣。

想像一個女人緣極差的男人在酒吧裡,對身旁的朋友說他的新戰術是同時和五個女生約會。他朋友把啤酒給嗆了出來,然後開口。朋友的回應可能有兩種:

「如果你約完會還能活下來我會很驚訝!」

或者:

「哦,如果你約會完還能活下來,那我會很驚訝。」

哪一種聽起來比較自然、比較生動?很顯然地,第二種。請注意一下這些細微調整後語調和語域的明顯變化。第二句話用句點和「哦」取代第一句話的驚嘆號,呆板的語氣就立刻生動了起來。我們注意到驚嘆號在暢銷書裡出現得少,而這個例子便讓我們看出來句尾少了驚嘆號之後,語調可以更微妙。贏得市場佳績的作品裡面,句號比較常見,分號和冒號則相對少見。

這些細微的寫作特徵或許沒辦法一一拿出來說明,但整體來看,寫作特徵形成了一個顯著的模式,建構出暢銷小說的語調和語域。當作者選擇用「I’d」來取代「I would」,或用「you’re」取代「you are」,這個決定遠比我們想像的還要重要。在暢銷小說裡,形容詞和副詞比較少見,尤其是形容詞,這表示暢銷書裡的句子比較簡潔,沒有無謂的贅字。句子不需要靠額外的子句來裝飾,名詞也不必一再修飾。動詞在暢銷書裡出現的次數比較多,但動詞旁邊也不需要拖著可愛的副詞。

暢銷書裡的句子不是俗氣的聖誕樹,帶著刺眼的顏色,掛著燈泡、彩帶、天使和星星的重量;最好是一棵讓人一看就很放鬆療癒的冷杉。

最好是一棵讓人一看就很放鬆療癒的冷杉。圖 / By Robin Jaffray @ flickr
最好是一棵讓人一看就很放鬆療癒的冷杉。圖 / By Robin Jaffray @ flickr

1124-%e6%9a%a2%e9%8a%b7%e6%9b%b8%e5%af%86%e7%a2%bc-%e6%ad%a3%e5%b0%81300

 

本文摘自《暢銷書密碼:人工智慧帶我們重新理解小說創作》,雲夢千里出版。


數感宇宙探索課程,現正募資中!

文章難易度
PanSci_96
989 篇文章 ・ 677 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。


1

1
0

文字

分享

1
1
0

為什麼吃甜的會蛀牙?——《生活中的東西都可以寫成化學式》

快樂文化
・2022/05/09 ・1404字 ・閱讀時間約 2 分鐘

來談談我們的敵人——蛀牙。

蛀牙的化學物語

導致蛀牙的主要原因有兩個。前面提過的蛀牙菌是其中一個因素,而蛀牙菌具體的名稱為「轉糖鏈球菌」,據說這種細菌常在孩童約三歲以前經由大人傳染,原因包括使用父母用過的筷子和湯匙,或輪流喝飲料等;另一個因素就是食物中所含的糖分,主要成分為「蔗糖」。

這兩個因素結合在一起時,就會發生以下情況:首先,轉糖鏈球菌利用蔗糖製造一種稱為「葡聚糖」的分子。葡聚糖的化學式為(C6H10O5)n,後面會再詳細說明。葡聚糖附著在牙齒表面,會成為轉糖鏈球菌的棲息地。此外,口腔中的其他細菌(根據統計,口腔中的細菌有 600 多種)也會混入其中。

這些附著在牙齒上的組合物稱為「牙菌斑」,有時也被稱為「齒垢」或「生物膜」(biofilm,又稱菌膜)。你可能在牙膏等的廣告中有聽過這些名詞。

之後,獲得棲息地的轉糖鏈球菌會產生大量的「酸」,引發去礦質作用,最終導致蛀牙。這個過程如下列所示。

轉糖鏈球菌生活在溫暖的葡聚糖裡,並分解出乳酸;事實上它們也會分解出醋酸,及一種稱為甲酸(HCOOH)的酸,但乳酸所佔的比例較高。這些酸會引發強烈的去礦質作用,溶解牙齒並造成蛀牙。

在這種情況發生前,必須好好刷牙,以澈底清除黏附在牙齒上的牙菌斑(葡聚糖+細菌)!即使是漱口,具黏性的牙菌斑也不易脫落,最有效的方法還是好好刷牙。而牙膏中含有研磨劑(可幫助去除汙垢的顆粒),能有效去除黏黏的牙菌斑。

不易蛀牙的甜食

上個單元我們說明了糖是如何引起蛀牙的。事實上也有一些分子的味道就和糖一樣甜,但卻不太容易引起蛀牙,其中最有名的分子之一就是「木糖醇」,你可能有聽過加了木糖醇的口香糖吧!這個分子的化學式為 C5H12O5,詳細的結構如下圖。

為什麼木糖醇味道甜甜的,卻不容易引起蛀牙呢?在回答這個問題前,我們先回想一下為什麼蔗糖(糖)會導致蛀牙。蔗糖是轉糖鏈球菌用來製造葡聚糖的材料,而反應過程中產生的果糖,會被轉糖鏈球菌做為養分來源,並分解出乳酸分子。

那木糖醇呢?首先木糖醇不像蔗糖是製造葡聚糖的材料,另外轉糖鏈球菌不會把木糖醇當成養分來源,所以也不會分解出乳酸。因此它們的味道雖然很甜,但卻不容易引起蛀牙。

這裡出現了一個問題。木糖醇和蔗糖的結構看來截然不同,但為什麼味道也是甜甜的呢?若像下圖一樣,稍微改變一下木糖醇的畫法,就會發現它的結構與構成蔗糖的葡萄糖和果糖很像,具有許多羥基這點也非常相似。

——本文摘自《生活中的東西都可以寫成化學式》,2021 年 11 月,快樂文化


數感宇宙探索課程,現正募資中!

所有討論 1
快樂文化
9 篇文章 ・ 7 位粉絲