第064章 用科學(xué)方法解讀紅樓夢(mèng)
《盤(pán)點(diǎn)歷史十大偽作(1)》一出,頓時(shí)引起了無(wú)數(shù)網(wǎng)友的關(guān)注。
東門(mén)慶工作室。
“慶哥,三無(wú)出山了?”
“???他不是不再盤(pán)點(diǎn)詩(shī)詞工作了么?出爾反爾?又出來(lái)盤(pán)點(diǎn)詩(shī)詞了?”
“沒(méi),他這次盤(pán)點(diǎn)了歷史上的偽作,說(shuō)《紅樓夢(mèng)》是偽作?!?p> “啥?臥槽啊!準(zhǔn)備文稿,以前咱們一直是歌頌他的,這次準(zhǔn)備開(kāi)噴吧!爭(zhēng)取做出全網(wǎng)第一條批判他的短視頻!”
……
片場(chǎng)。
宋喬蕓正坐在椅子上休息,身邊的化妝師在補(bǔ)妝。
滴!
【抖樂(lè)提示:您關(guān)注的短視頻博主發(fā)布了最新作品?!?p> 她連忙打開(kāi)手機(jī),見(jiàn)到印入眼簾的一行字后,整個(gè)人瞬間坐直了。
“這……”
“完了,歪了歪了歪了!”化妝師忙道。
宋喬蕓沉吟道:“三無(wú)的觀點(diǎn),未必是歪的?!?p> “我是說(shuō)口紅給您畫(huà)歪了?!?p> ……
富旦大學(xué)。
張教授正在和同事們暢聊歷史。
突然有人匆匆跑來(lái):“張主任,我萬(wàn)萬(wàn)沒(méi)想到,您口中的那個(gè)朋友,竟然是三無(wú)老師!”
張教授一臉茫然:“什么東西?”
“您朋友啊,您不是說(shuō)您有個(gè)朋友嘛,我做夢(mèng)都不敢想,您口中的那個(gè)提出了《后出師表》偽作言論的朋友,竟然是詩(shī)人三無(wú)!張主任,您也太低調(diào)了吧,認(rèn)識(shí)三無(wú)都不跟我們說(shuō)?”
張教授很茫然:“啥意思,我不懂你啥意思?!?p> “您還裝!這不嘛,您朋友三無(wú)老師,剛剛發(fā)布了一條短視頻,您看啊,這上面不是寫(xiě)著呢么,《盤(pán)點(diǎn)歷史十大偽作(1)》,《紅樓夢(mèng)》,他前幾天不是還說(shuō)《后出師表》是偽作嘛!您可千萬(wàn)別告訴我,這是兩個(gè)研究者碰巧想到一塊去了,都研究同一個(gè)方向了。”
張教授腦袋“嗡”地一聲,他突然意識(shí)到了什么,但又完全不敢相信。
他一把抓過(guò)手機(jī),因?yàn)榧?dòng)手都是抖的,只見(jiàn)屏幕上徐徐展示出一段內(nèi)容,然后他整個(gè)人,徹底懵住了。
……
無(wú)數(shù)雙眼睛在不同時(shí)間盯著同樣的內(nèi)容,有著同樣的震顫,這是一個(gè)挑戰(zhàn)了所有人固有認(rèn)知的短視頻!
短視頻在緩緩播放著內(nèi)容。
三無(wú)極具特色的嗓音,舒緩平和,娓娓道來(lái)。
【我將《紅樓夢(mèng)》分為兩部分,第一部分:前80回,第二部分,后40回。
在經(jīng)過(guò)我縝密而繁復(fù)的研究工作后,我發(fā)現(xiàn)了一個(gè)驚天的秘密——《紅樓夢(mèng)》后四十回,其作者并不是曹雪芹,而是由后人續(xù)寫(xiě),狗尾續(xù)貂之作。】
抖樂(lè)最近學(xué)習(xí)了其他短視頻網(wǎng)站,開(kāi)通了彈幕功能。
此時(shí)滿(mǎn)屏幕的彈幕全是問(wèn)號(hào)。
“???”
“啊???”
“三無(wú),請(qǐng)回去寫(xiě)你的詩(shī)詞吧,別在這逗我好么?”
“這不扯淡呢么?”
“現(xiàn)在的自媒體,為了流量真是啥瞎話(huà)都敢編啊!”
……
視頻內(nèi)容繼續(xù):
【接下來(lái)的一段時(shí)間里,我將分若干集,從各個(gè)角度出發(fā),來(lái)論證《紅樓夢(mèng)》后四十回并不是曹雪芹手筆。
而本集視頻,我們先從文本特征差異研究開(kāi)始。我將運(yùn)用統(tǒng)計(jì)學(xué)方法,并結(jié)合 R語(yǔ)言技術(shù),對(duì)我的觀點(diǎn)進(jìn)行闡述!】
彈幕上,網(wǎng)友們又蒙圈了。
“R語(yǔ)言技術(shù)?統(tǒng)計(jì)學(xué)?跟《紅樓夢(mèng)》有什么關(guān)系?”
“什么是R語(yǔ)言?”
“這不是文學(xué)方面的事情么?怎么涉及到數(shù)學(xué)和計(jì)算機(jī)技術(shù)了呢?”
“對(duì)啊,文學(xué)就是文學(xué),怎么能和其他學(xué)科混為一談呢,一看就不靠譜!”
“繼續(xù)圍觀,看這個(gè)詩(shī)人能扯出什么花樣來(lái)。”
……
【在大量事件的前提下,無(wú)論是在語(yǔ)言表述,還是在寫(xiě)作中,每個(gè)人在特定情況下用字或是用詞都存在著某種規(guī)律。
這種規(guī)律便是個(gè)人在說(shuō)話(huà)與寫(xiě)作中所形成的語(yǔ)言表達(dá)習(xí)慣,即是個(gè)人在其特定習(xí)慣中所形成特有的文體特征。
所以,不同的作者在用詞頻率與用詞風(fēng)格上存在一定的差異性。
我將運(yùn)用R語(yǔ)言對(duì)《紅樓夢(mèng)》著作進(jìn)行文本分詞和詞頻統(tǒng)計(jì),從高頻詞匯和虛字兩個(gè)研究角度,來(lái)分析《紅樓夢(mèng)》前八十回與后四十回在文本特征上的差異性。
首先,我們率先研究高頻詞匯。
在《紅樓夢(mèng)》的高頻詞匯中,我首先將人名、地名、稱(chēng)謂等剔除掉,以及對(duì)“一個(gè)”“一面”等表數(shù)量的沒(méi)有實(shí)際意義的詞匯進(jìn)行剔除。
于是,我們得到了65個(gè)高頻詞匯進(jìn)行文本研究,現(xiàn)制作統(tǒng)計(jì)表格。
如下圖!】
短視頻中,貼出一張統(tǒng)計(jì)表。
【高頻詞匯研究對(duì)象表】
【1,什么;2,我們;3,那里;4,姑娘;5,你們……63,家里;64這話(huà);65到底?!?p> 短視頻解讀繼續(xù):
【……我的研究分組方案如下,一至三十回第一組,十六至四十五回第二組,三十一至六十回第三組……,以此類(lèi)推,一共將《紅樓夢(mèng)》分成7組。
運(yùn)用R語(yǔ)言,對(duì)各組進(jìn)行分詞,對(duì)高頻詞匯研究對(duì)象進(jìn)行詞頻統(tǒng)計(jì)。繪制高頻詞匯頻數(shù)變化折線(xiàn)圖。
如下圖所示!】
話(huà)音落,短視頻里,貼出了運(yùn)用R語(yǔ)言繪制出的高頻詞匯頻數(shù)變化折線(xiàn)圖——一個(gè)帶有X、Y坐標(biāo)的七條折線(xiàn)的統(tǒng)計(jì)表。
而此時(shí),網(wǎng)友們?nèi)瓷盗恕?p> “懵逼了,這些都啥意思?。俊?p> “這能代表啥啊,根本看不懂??!”
“詩(shī)人你到底啥意思,請(qǐng)你明說(shuō)行么?”
“我感覺(jué)看了你的視頻,受到了侮辱!”
“你高估我們了!”
……
短視頻開(kāi)始對(duì)這一折線(xiàn)圖進(jìn)行講解:
【我們可以發(fā)現(xiàn)折線(xiàn)圖有明顯的鋸齒形,那么就表明高頻詞匯在各分組有明顯的波動(dòng)……諸如 16(沒(méi)有)、21(聽(tīng)見(jiàn))、26(回來(lái))、34(心里)、51(那些)、65(到底)等詞匯,當(dāng)?shù)诹M和第七組出現(xiàn)波峰的時(shí)候,其他組卻出現(xiàn)了波谷;
而在42(不過(guò))、61(姊妹)等詞匯,當(dāng)?shù)诹M和第七組出現(xiàn)波谷的時(shí)候,其他組卻出現(xiàn)了波峰;這就說(shuō)明第六組和第七組的折線(xiàn)圖與其他組的折線(xiàn)圖有明顯的相反的走勢(shì)……】
彈幕瘋狂抗議:
“求你了別說(shuō)了,聽(tīng)不懂啊,能直接告訴我結(jié)論么?”
“你讓數(shù)學(xué)常年不及格的我,如何理解你的高深莫測(cè)?”
“直接說(shuō)結(jié)論吧,真聽(tīng)不懂!”
……
【從部分高頻詞匯角度分析,前八十回和后四十回詞頻有較顯著的差異性,于是我得出初步結(jié)論,前八十回和后四十回,作者并不是同一個(gè)人。
完成了高頻詞匯的分析后,下面,我們對(duì)虛字進(jìn)行分析。
虛字,是指不能單獨(dú)成句,意義比較抽象,而具有一定語(yǔ)法意義的字或詞。古典小說(shuō)中的虛字是構(gòu)成句子必不可少的成分,其使用不受故事情節(jié)的制約,僅與作者的寫(xiě)作習(xí)慣有關(guān)。
……
我們對(duì)44個(gè)虛字作為研究對(duì)象, 44個(gè)虛字如下:之、其、或、亦、方、于……偏、兒。
在研究之前,首先我對(duì)監(jiān)督學(xué)習(xí)作簡(jiǎn)單介紹,監(jiān)督學(xué)習(xí)分為回歸分析與分類(lèi)分析兩大類(lèi)別,本文應(yīng)用了分類(lèi)分析。所謂分類(lèi)是通過(guò)分析已知數(shù)據(jù),構(gòu)造一個(gè)分類(lèi)函數(shù)或者分類(lèi)模型(即分類(lèi)器),利用該模型將數(shù)據(jù)庫(kù)中數(shù)據(jù)映射到某一給定類(lèi)別中……
接下來(lái),我將運(yùn)用監(jiān)督學(xué)習(xí)中的樸素貝葉斯法和BP神經(jīng)網(wǎng)絡(luò)對(duì)紅樓夢(mèng)各回作分類(lèi)研究,并根據(jù)分類(lèi)準(zhǔn)確度分析前八十回和后四十回的差異性!】
富旦大學(xué)。
張教授身邊,人越聚越多。
“他說(shuō)的這是啥???”
“我怎么全程都聽(tīng)不懂?”
“什么是樸素貝葉斯法?是數(shù)學(xué)么?”
“BP神經(jīng)網(wǎng)絡(luò)啥意思?生物學(xué)?還是計(jì)算機(jī)?”
“這確定是,在考證《紅樓夢(mèng)》后四十回是偽作么?”
“張教授,你能看懂他說(shuō)的是啥么?”
“張教授?”
在場(chǎng)的所有教授都傻了,全都看不懂啊。
什么樸素貝葉斯法,什么BP神經(jīng)網(wǎng)絡(luò),又什么折線(xiàn)圖啊,這些文學(xué)方面的大教授們,哪懂這些?
用數(shù)學(xué)、計(jì)算機(jī)技術(shù)等,去研究文史問(wèn)題,他們聞所未聞啊。
雖然這樣的研究在前世已經(jīng)是常規(guī)手段,但是這一世的人們哪見(jiàn)過(guò)這個(gè)?
對(duì)于這一世的所有網(wǎng)友來(lái)說(shuō),對(duì)于這些大教授來(lái)說(shuō),現(xiàn)在已經(jīng)不是震不震驚的問(wèn)題了,也不是吐不吐槽的問(wèn)題了。而是,完全看不懂的問(wèn)題!
完全看不懂啊!
想吐槽幾句,想罵幾句,都不知道從何開(kāi)口!
張教授傻了。
視頻里講解的內(nèi)容,他聽(tīng)不懂,傻了!
江小白就是三無(wú)的這個(gè)真相,他更接受不了,更傻了!
他一時(shí)間怔在原地,他的認(rèn)知上,從來(lái)都沒(méi)受到過(guò)如此重大的沖擊。
……
“臥槽,他怎么還列上數(shù)學(xué)式子了呢?”
眾教授連忙再次望向手機(jī)屏幕!
【設(shè)有m個(gè)輸入變量 x ={X?,X?,…,Xm},有n個(gè)可能取值分類(lèi)型變量 y ={y?,y?,…,yn},則根據(jù)貝葉斯定理有: P( y = y0|x?,x?,…,Xm)= P( x?,x?,…,Xm……
根據(jù)最大后驗(yàn)概率原則,輸出變量應(yīng)預(yù)測(cè)n個(gè)后驗(yàn)概率中最大的概率值對(duì)應(yīng)的類(lèi)別。
……
首先將前八十回標(biāo)記為類(lèi)別1,將后四十回標(biāo)記為類(lèi)別2,進(jìn)行樸素貝葉斯分類(lèi)估計(jì)。
……
由表可知,準(zhǔn)確率最小值為0.76000,而最大準(zhǔn)確率達(dá)1(對(duì)測(cè)試集分類(lèi)百分之百正確),平均準(zhǔn)確率為0.91609。
假定兩種分類(lèi)方式的準(zhǔn)確率總體服從正態(tài)分布,因?yàn)闃颖玖繛?000,屬于大樣本檢驗(yàn),因此采用z檢驗(yàn)。建立假設(shè)并進(jìn)行檢驗(yàn):
H0 :μ1 -μ2 ≤ 0
H1:μ1 -μ2 > 0
……
其中,xˉ1 = 0.91609 ,xˉ2 = 0.61587 ,s 2 1 = 0.00192 , s 2 2 = 0.00746 ……
既然p是極顯著大于p2的,那么就說(shuō)明前八十回與后四十回的分類(lèi)方式相比于任意一般的分類(lèi)方式而言,類(lèi)別之間的差異性更明顯,即前八十回和后四十回文本特征存在顯著的差異。
也就是說(shuō),從虛字角度分析,前80回和后40回,也不是同一作者的手筆。
因此,無(wú)論是從高頻詞匯分析,還是從虛字分析,通過(guò)科學(xué)方法研究后,我得出以下結(jié)論:《紅樓夢(mèng)》前80回,和后40回,并不是出自同一人之手。】
彈幕上終于松了一口氣:
“終于完事了,腦袋里全是漿糊,懵了??!”
“我剛剛究竟看了個(gè)啥?”
“全程懵逼中!”
“我突然想噴幾句話(huà),但發(fā)現(xiàn)我完全不知道從何噴起。因?yàn)槲疑渡抖紱](méi)聽(tīng)懂??!”
“視頻還沒(méi)結(jié)束么?喲,才進(jìn)行了三分之二?”
“還沒(méi)結(jié)束么?”
【下面,為了對(duì)我的研究成果進(jìn)行驗(yàn)證,我們引入BP神經(jīng)網(wǎng)絡(luò)。
所謂BP神經(jīng)網(wǎng)絡(luò)是一種利用誤差反向傳播算法的人工神經(jīng)網(wǎng)絡(luò),可以有效的解決很復(fù)雜的有大量互相相關(guān)的分類(lèi)問(wèn)題……】
彈幕,集體崩潰了。
“我靠,又來(lái)!”
“神啊,救救我吧?!?p> “請(qǐng)直接說(shuō)結(jié)論!!”
“蒼了個(gè)天!”
……
【樸素貝葉斯分類(lèi)器平均準(zhǔn)確率為0.91677,方差為0.00201;而B(niǎo)P神經(jīng)網(wǎng)絡(luò)分類(lèi)器平均準(zhǔn)確率為0.93513,方差為0.00175。
因此,我的研究成果是沒(méi)有問(wèn)題的。
綜上所述,從高頻詞匯角度研究,我運(yùn)用各組高頻詞匯頻數(shù)變化折線(xiàn)圖。從虛字角度,用了樸素貝葉斯和BP神經(jīng)網(wǎng)絡(luò)分類(lèi)方法,作了組內(nèi)與組間對(duì)照研究。
結(jié)果表明,】
視頻中,三無(wú)的語(yǔ)氣加重,嚴(yán)肅而肯定:
“《紅樓夢(mèng)》前八十回與后四十回文本特征存在顯著的差異性,即前80回和后40回作者不是同一個(gè)人!】
短視頻播放完畢!
富旦大學(xué)辦公室內(nèi),圍觀的眾教授,一頭霧水!
此時(shí)此刻,他們和所有網(wǎng)友一樣,都沒(méi)看懂。
這個(gè)全程運(yùn)用了統(tǒng)計(jì)學(xué)、計(jì)算機(jī)技術(shù)等科學(xué)手段進(jìn)行文史研究的方法,對(duì)于這一世的人們來(lái)說(shuō),太超前了。
雖然在前世司空見(jiàn)慣,但是在這一世,所有人是聞所未聞,見(jiàn)所未見(jiàn)!
“三無(wú)關(guān)于《后出師表》的研究,我聽(tīng)得明明白白的。但是這個(gè)我完全懵了?!?p> “我完全理解不了他剛剛的內(nèi)容,是對(duì)是錯(cuò),完全不明白啊!”
“咱們先別談這個(gè)研究哈,張主任,你竟然認(rèn)識(shí)三無(wú),你也太厲害了吧?”
“張主任人脈是廣啊,竟然連三無(wú)都認(rèn)識(shí)!”
“原來(lái)你的朋友,竟然是大名鼎鼎的三無(wú),哇,你真的是神通廣大啊?!?p> “張主任,您干嘛去?”
“張主任?”
張主任突然轉(zhuǎn)身離去,一路小跑著奔向樓梯,同事的聲音早已來(lái)不及回答。
(PS:文中公式是錯(cuò)的,因?yàn)檎_的公式,字體識(shí)別不出來(lái)。貼上正確的公式,識(shí)別出來(lái)就這樣了,把開(kāi)根號(hào)什么的都弄沒(méi)了。)