隋波安撫好了左清泉之后,也答應(yīng)她,等考試周之后,會讓她負(fù)責(zé)一些相對輕松的工作。
比如公司現(xiàn)在還沒有專門的行政部門。
可以讓她和張軒兩個人先組成CEO辦公室,兼管公司內(nèi)部行政綜合事務(wù),像法務(wù)、公關(guān)、后勤、文件報告匯總之類的事情。
這也是一種鍛煉。
可以從這些內(nèi)部的職能工作,讓他們?nèi)娴氖煜ず屠斫夤菊?guī)化運作的流程和模式。
等左清泉離開之后,隋波想了想,還是覺得應(yīng)該去看看王川團(tuán)隊的研發(fā)進(jìn)展。
隨著這段時間各項目展開,無論是龐勇還是周楓、王川他們都覺得技術(shù)力量不夠,又各自從學(xué)校里拉了一些同學(xué)進(jìn)入團(tuán)隊,整個技術(shù)團(tuán)隊擴(kuò)張的很快。
當(dāng)時隋波在外地,就讓左清泉去找了趙寧,把公司隔壁的兩間辦公室也都租了下來。
周楓、許朝軍帶領(lǐng)的校內(nèi)網(wǎng)開發(fā)團(tuán)隊和王川帶領(lǐng)的搜索引擎研發(fā)團(tuán)隊,都從原來的辦公室分了出來,易趣那個辦公室里只留了電商團(tuán)隊。
新業(yè)務(wù)的研發(fā)團(tuán)隊分別在兩個新辦公室里閉關(guān)。
一推開門,隋波有些驚訝的看到,不大的房間里,中間是一張長桌,長桌上一個緊挨一個的擺放著十幾臺電腦,將長桌擠得滿滿的。
一幫少年們頭發(fā)亂糟糟,眼圈發(fā)黑,眼睛發(fā)光的盯著電腦屏幕,渾然忘我的噼里啪啦敲打著鍵盤。
桌上的電腦之間就算稍微有點空隙,也都擺滿了方便面火腿腸之類的速食品。
要不是那些電腦屏幕上,顯示的一行行代碼,簡直就是一個小型黑網(wǎng)吧的現(xiàn)場!
王川坐在最靠里的一臺電腦前,眉頭緊鎖,盯著屏幕,似乎正在思索什么難題。
別看這個場面,看起來好像是一群泡吧的頹廢網(wǎng)癮少年。
隋波可是清楚,這幫少年們都是計算機(jī)天才!
王川直接從學(xué)校里拉了不少水木計算機(jī)國家集訓(xùn)隊的隊友來,組成項目團(tuán)隊攻關(guān)搜索引擎!
隋波想了想,回去找左清泉。
讓她找附近的餐廳預(yù)訂每天的飯菜,送到公司來,再買幾箱飲料、咖啡、面包餅干之類的小食品,放到幾個研發(fā)團(tuán)隊的辦公室里。
估計不僅王川團(tuán)隊,龐勇、周楓他們那兒也都一樣。
這幫技術(shù)男們敲起代碼來,都是沒日沒夜的。
沒有打擾其他人的工作,他悄悄把王川叫出來,在自己辦公室里,和他專門交流研發(fā)情況。
目前搜索引擎項目最大的困難在于,沒有可供參考的對象。
雖然可以參考一些國外的資料和論文,但因為涉及到一些核心技術(shù),是無法通過網(wǎng)絡(luò)查找到的,都需要自行開發(fā)。
隋波點頭表示同意。
這個時候Google還不存在呢,要到9月份的時候,布林和佩奇才會在加州一個車庫里開始創(chuàng)業(yè)。
百度更是沒影的事兒,老李還在搜信里混呢。
現(xiàn)階段,無論是國外的Lycos、AltaVista、Infoseek(搜信),雅虎搜索引擎;還是國內(nèi)搜狐推出的所謂全中文搜索引擎,都還是以人工分類目錄為主的網(wǎng)站檢索服務(wù)。
說是搜索引擎,其實更像是目錄導(dǎo)航網(wǎng)站……
盡管其中一些搜索引擎已經(jīng)有了網(wǎng)頁關(guān)鍵詞檢索、用戶點擊量排序等一些創(chuàng)新,但本質(zhì)上,還是需要大量的人工編輯的目錄式搜索引擎(Directory Search Engine)。
而隋波希望王川團(tuán)隊開發(fā)的,則是全新的,通過技術(shù)程序,自動在互聯(lián)網(wǎng)上通過超鏈接網(wǎng)頁進(jìn)行全文檢索的機(jī)器人搜索引擎(Robot Search Engine)。
這樣的話,就需要從頭做起,開發(fā)一整套完整的技術(shù)體系。
其中包括網(wǎng)絡(luò)爬蟲(Web Crawler)服務(wù)、索引服務(wù)、緩存服務(wù)、日志服務(wù)等幾大模塊,各模塊之間互相影響,構(gòu)成了整個搜索引擎體系。
從開發(fā)量上,技術(shù)難度是遠(yuǎn)遠(yuǎn)大于目錄式檢索技術(shù)的。
首先說網(wǎng)絡(luò)爬蟲,也稱網(wǎng)絡(luò)蜘蛛(Web Spider),這項技術(shù)是基于Web的自動化瀏覽程序,通過網(wǎng)頁鏈接(URL),爬蟲不斷的通過互聯(lián)網(wǎng)中獲得新的網(wǎng)頁數(shù)據(jù),下載頁面數(shù)據(jù)形成后臺數(shù)據(jù)庫。
可以說,網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)是搜索引擎工作流程的第一步。
爬蟲的體系架構(gòu)直接關(guān)系到搜索引擎每天數(shù)據(jù)的采集量,而抓取策略則關(guān)系到搜索結(jié)果的數(shù)據(jù)質(zhì)量,數(shù)據(jù)的更新策略則關(guān)系到系統(tǒng)資源的利用率。
這只是第一步,采集了大量數(shù)據(jù)信息之后,還需要通過自然語言處理(NLP),將文本信息分解為結(jié)構(gòu)化數(shù)據(jù)和價值性數(shù)據(jù)。
這里面就又存在一個問題,目前國外的搜索引擎都是英文分詞,而中文比較特殊,最小單位是字,但具有語義的最小單位是詞。
所以,在中文分詞這一部分,就需要技術(shù)團(tuán)隊單獨進(jìn)行開發(fā)。
通過建立詞庫、采用條件隨機(jī)概率分布模型、詞性標(biāo)注、語義相似度、已存句法分析、情感傾向分析等,通過各種模型判斷,讓程序理解抓取到的關(guān)鍵詞中文的語義,才能提高搜索的準(zhǔn)確性和查全率。
這還只是其中比較小的開發(fā)困難。
比如,搜索引擎的核心就是通過海量數(shù)據(jù)抓取后的快速檢索,而抓取的數(shù)據(jù)越多,當(dāng)龐大的數(shù)據(jù)存儲在數(shù)據(jù)庫里,就需要構(gòu)建快速存取數(shù)據(jù)的分布式存儲架構(gòu)。
再比如,為了讓用戶在最短的時間內(nèi)獲得想要的搜索結(jié)果,就需要后臺系統(tǒng)不斷的執(zhí)行數(shù)據(jù)抓取和建立索引等操作。
這就需要建立分布式實時計算系統(tǒng),以及對索引結(jié)構(gòu)的構(gòu)建……
王川估計也是最近開發(fā)中有些郁悶了,一說起來就滔滔不絕。
隋波雖然不太懂他說的一些技術(shù)術(shù)語,但畢竟前世作為用戶也使用了20多年的搜索引擎,接觸的多了,也了解一些基本的知識。
他安靜的聽著王川不斷的講述團(tuán)隊面臨的一個個困難,又是怎么想辦法克服的。
不時提問兩句,顯得聽的很認(rèn)真。
腦子里卻不斷的在回憶,當(dāng)初Google和百度是有哪些創(chuàng)新的舉措,才一舉成功的?
印象最深的,就是那句“百度更懂中文”,這應(yīng)該就是剛才王川所提的中文分詞了,這塊王川已經(jīng)考慮到了。
至于是不是更進(jìn)一步,先弄個智能輸入法出來?……
現(xiàn)在團(tuán)隊的研發(fā)壓力已經(jīng)很大了,暫時先略過不提。
還有就是百度快照,不過好像這個功能雖然對用戶而言很有價值,但爭議很大……
還有就是Google獨創(chuàng)的PageRank技術(shù)。
這是一種根據(jù)網(wǎng)頁之間的鏈接結(jié)構(gòu)來評價判斷網(wǎng)頁重要性的排序算法。
想到這里,隋波就提了一下,是否在搜索結(jié)果的排序算法上,可以采用這種模式?
從網(wǎng)頁的鏈接數(shù)量、權(quán)威性、主題相關(guān)性、網(wǎng)頁內(nèi)容的匹配性等多個方面,綜合分析,進(jìn)行搜索結(jié)果的排序。
王川聽了以后若有所思:“這個算法我回去研究一下,應(yīng)該沒問題?!?p> 隋波笑道:“技術(shù)上我沒辦法給你太大的幫助,不過我可以從公司激勵政策和后勤上為團(tuán)隊鼓勁!
你回去和大家說一下,搜索引擎項目的團(tuán)隊項目獎金定在10萬,而且根據(jù)每個人的表現(xiàn),到時候還有個人獎勵。
我已經(jīng)讓清泉給你們做好后勤,每天會定時讓樓下餐廳送飯菜過來。
另外給你們弄一個休息間,里面準(zhǔn)備好啤酒、咖啡、飲料和小吃,保證供應(yīng)。
嗯……,再讓她給你們辦公室里配一個沙發(fā),大家累了可以躺下休息一會。
王川,這個項目將會是公司除了電商平臺,最核心的業(yè)務(wù),還要你多辛苦了!”
王川點頭,一臉的倔強(qiáng):“波總,你放心,我有信心把這個搜索引擎搞出來!實際上每當(dāng)解決一個技術(shù)難題,大家的那種快樂都是無法言表的,公司又給我這么大的支持力度,我一定全力以赴!”
隋波拍拍他的肩膀:“我相信你,你也別著急,和團(tuán)隊成員要勞逸結(jié)合,注意休息,別搞壞了身體,我們還有足夠的時間來成長!”