首頁 都市

學(xué)霸的黑科技時(shí)代

第60章 給詞語一個(gè)向量

學(xué)霸的黑科技時(shí)代 咬文嚼紙 2341 2018-12-04 17:07:32

  (一個(gè)通知,應(yīng)大家要求小說的時(shí)間軸更改為2017年11月開始,現(xiàn)在劇情時(shí)間是2018年3月。當(dāng)初設(shè)定在2009年11月底開始并不是為了文抄公抄襲現(xiàn)在已經(jīng)有的技術(shù),而是希望把時(shí)間軸拉長一點(diǎn),現(xiàn)在讀者反映放在八年前代入感弱一些,有些讀者塞班手機(jī)都沒有用過,因此進(jìn)行修改。修改后的前文主角家庭收入、房價(jià)、使用的手機(jī)電腦等的符合當(dāng)前時(shí)代,別的沒有什么變化,不影響后文。大家如果發(fā)現(xiàn)我前文還有哪里沒有修改的,請告知,說明不占字?jǐn)?shù)。以上。)

  蕭銘詳細(xì)閱讀著盤古語言的優(yōu)點(diǎn),最大的有點(diǎn)就是集成了人類漢語的所有邏輯和規(guī)則,能夠?qū)⑷祟愓Z言表達(dá)意思直接告訴機(jī)器。

  盤古語言如果使用在潘沙星的生物思維計(jì)算機(jī)上更能夠發(fā)揮作用,現(xiàn)在使用在二進(jìn)制計(jì)算機(jī)上,只能說將功能發(fā)揮的勉勉強(qiáng)強(qiáng)。

  接下來,蕭銘將自己購買的應(yīng)用套餐兌換為翻譯軟件。

  電腦上出現(xiàn)了翻譯軟件的詳細(xì)編程步驟。

  兌換的應(yīng)用套餐不會(huì)直接將應(yīng)用送給你,而是讓蕭銘實(shí)際操作,自己搗鼓一個(gè)程序出來。

  授人予漁不是授人予魚就是這個(gè)道理。

  蕭銘想著,其實(shí)自己的英語已經(jīng)進(jìn)步很大的了,語法的問題已經(jīng)不大,最大的缺點(diǎn)是詞匯量少,聽說能力差,看得懂聽不懂說不會(huì)。

  這也是大部分夏國學(xué)生學(xué)習(xí)英語的困境。

  英語重要嗎?就現(xiàn)階段來說,肯定重要。人類目前大量的技術(shù)科學(xué)都是來自于西方,英語不好連SCI的論文都看不懂更別說做學(xué)術(shù)了。

  蕭銘這半年來最大的變化就是會(huì)自我反省,英語不好也要反省。

  他可以抽寶箱,可以兌換科技,但是這些科技產(chǎn)品也是建立在基礎(chǔ)科技知識之上。

  要是蕭銘不懂基礎(chǔ)的生物知識,他就不會(huì)培養(yǎng)吞噬1菌類,同樣,要是他不懂邏輯知識也絕對不會(huì)編程。不懂英語看不懂國外的學(xué)術(shù)也不會(huì)在科技上進(jìn)步。

  天下沒有免費(fèi)的午餐,人生再有外掛也得努力。

  回到計(jì)算機(jī)屏幕上,蕭銘有了一個(gè)大膽的想法,他需要的不僅是一個(gè)翻譯軟件,而是需要的一個(gè)能夠較為智能和自己進(jìn)行英語對話,盡快提高自己英語聽說水平的軟件。

  按照盤古語言的編程說明,蕭銘開始動(dòng)手。

  首先,在編程的頁面上,蕭銘書寫著應(yīng)用軟件的總說明——能夠智慧準(zhǔn)確的相互翻譯英語和漢語,并且能和用戶對話。

  接下里就是程序的具體書寫。

  蕭銘英語詞匯量不足,但是語法沒有問題。

  蕭銘歸納,現(xiàn)今市面上的翻譯軟件和翻譯機(jī)最大的缺陷有兩個(gè)。

  一個(gè)是詞不達(dá)意。無論是英語還是漢語,通常會(huì)有多種意思,在不同的語境中有不同的解釋,但是機(jī)器翻譯并不能完全了解人類表達(dá)的意思。很多時(shí)候單詞的詞語意思準(zhǔn)確,但是放在句子中笑話百出。

  還一個(gè)是無法識別人類的語音。這主要出現(xiàn)在翻譯機(jī)上,每個(gè)人有很多種口音,生活中的對話有很多的俚語,人和人之間對話時(shí)絕對不可能像央視主播那樣每句話都是語言要素齊全,語音標(biāo)準(zhǔn)。

  機(jī)器翻譯在很多時(shí)候都會(huì)撿著聽得懂的翻譯,聽不懂的亂翻譯。這也是很多品牌的翻譯機(jī)拿到國外去應(yīng)用的時(shí)候讓顧客感到并不順心,翻譯機(jī)更不能作為會(huì)議同聲翻譯的原因。

  為了處理上面兩個(gè)主要問題,蕭銘按照說明書的建議項(xiàng),編輯著。

  蕭銘采用數(shù)學(xué)的思維,將每個(gè)詞語設(shè)定為向量,并且分類為名詞、動(dòng)詞等等。

  將詞語設(shè)定為向量的好處就是講長難句進(jìn)行肢解,翻譯軟件處理時(shí)會(huì)將每個(gè)詞語準(zhǔn)確的翻譯。

  接下來就是按照語言的語境篩選組合,將不同的詞語按照翻譯對象需要的語法和含義進(jìn)行組合,并對缺少的語法要素進(jìn)行補(bǔ)足。

  在盤古編程語言的提示下,蕭銘知道自己編程的邏輯是正確的。

  但是邏輯正確只是第一步,怎么讓擁有向量的詞語按照語法組合為新的語句,這個(gè)很難,這也是現(xiàn)代翻譯軟件和機(jī)器最大的難點(diǎn)。

  沒有關(guān)系,這是盤古最擅長的。

  盤古給了蕭銘幾個(gè)接入入了口。

  蕭銘將導(dǎo)入大量的中英文資料,資料不僅有名著更有口水話表達(dá)的網(wǎng)路小說、貼吧問答、微博、推特文章等等。

  未來這些資料會(huì)可以由用戶們自己上傳,優(yōu)化程序的準(zhǔn)確性。

  盤古的數(shù)據(jù)庫能將整合這些資料,熟悉每一個(gè)句子的語境,然后整理出數(shù)據(jù)模型(模擬出漢語和英語等人類思維表達(dá)方式的模型)。

  這些數(shù)據(jù)會(huì)幫助“詞向量”在不同的語境和語法中出現(xiàn)在合適的位置,如此翻譯會(huì)更加準(zhǔn)確。

  這項(xiàng)工作最大的難點(diǎn)就是編譯量非常大!

  所以現(xiàn)今市面上現(xiàn)存的翻譯軟件都是采用語言學(xué)家總結(jié)的語法庫,即便有少部分軟件有自我學(xué)習(xí)功能,也不能做到了解和統(tǒng)計(jì)當(dāng)今所有的語言習(xí)慣并對其作出分析。這也是現(xiàn)有翻譯軟件機(jī)械不智能錯(cuò)誤百出的原因。

  剩下的一些接口,蕭銘將其接入全國各地的免費(fèi)直播間,直播間主播有用普通話有用地方語言,也屬于口語的表達(dá),最具有代表性。

  盤古語言將搜集各地的語音和語氣將其歸類編譯,最后形成語音數(shù)據(jù)庫和文字庫相對應(yīng)。

  盤古編程使用方式很簡單,不需要輸入代碼,只需要告訴邏輯意圖,當(dāng)蕭銘告訴邏輯和方式之后,編程語言就可以明確運(yùn)行。

  然后……

  然后計(jì)算機(jī)卡死了,卡得發(fā)燙!

  蕭銘廢了半天功夫心血化為烏有。

  勞資……

  蕭銘購買的筆記本是華碩的普通筆記本,用的是i7 8550u處理器。

  筆記本的處理器處理如此大量的數(shù)據(jù),不卡死才怪!

  蕭銘看了下時(shí)間,已經(jīng)凌晨三點(diǎn)。

  “我需要一組服務(wù)器?!笔掋懻f道,隨后他躺在床上繼續(xù)思考著語言翻譯和英語學(xué)習(xí)助手軟件的邏輯性問題。

  接下來的幾天,蕭銘在學(xué)校很沉默。

  除了做必要的數(shù)學(xué)和理綜練習(xí)題以外,大部分時(shí)間都在做英語閱讀和語文閱讀。

  學(xué)校小組的成員都知道蕭銘在水木大學(xué)老師離開之后心情不怎么好,都沒有去打擾他。

  幾天之后,蕭銘問老爹要了十萬塊的經(jīng)費(fèi),直接網(wǎng)購了四組英特爾Xeon E5-2603v4芯片組建的服務(wù)器主機(jī),并且聯(lián)系人上門安裝。又花錢開通了企業(yè)光纖專線。

  蕭銘看著白花花的銀子今天時(shí)間就花沒了,也是肉痛。

  兩個(gè)行業(yè)絕對是暴利!

  一個(gè)是英特爾的芯片行業(yè),一個(gè)是電信的通訊行業(yè)!

  安裝服務(wù)器的年輕師傅看著幾天沒睡好覺有些滄桑猥瑣的蕭銘,偷偷說道:“建直播網(wǎng)站?小兄弟,現(xiàn)在風(fēng)聲緊,服務(wù)器好還是租用海外的好點(diǎn),自己建設(shè)風(fēng)險(xiǎn)大!”

  蕭銘無語,“那你要不要先充個(gè)會(huì)員?可以一對一?!?p>  師傅嘿嘿笑了兩聲說道:“不了不了?!?

咬文嚼紙

跪求一切!跪求一切!

按 “鍵盤左鍵←” 返回上一章  按 “鍵盤右鍵→” 進(jìn)入下一章  按 “空格鍵” 向下滾動(dòng)
目錄
目錄
設(shè)置
設(shè)置
書架
加入書架
書頁
返回書頁
指南