0201.大數(shù)據(jù)時代
{時間:2003年3月4日}
{地點:加州-帕洛阿爾托}
7天時間拿下300w用戶增長,這樣的數(shù)據(jù)在于【MySpace】絕對是爆發(fā)式的增長。當然,這與詹妮弗【紅人計劃】所積累的紅人資源有相當大的關(guān)系。
只不過,一次性輸送給【MySapce】后,剩下的推廣工作就只能靠著用戶們在體驗過【MySpace】的社交屬性后,慢慢去做口口相傳了。而陳士駿和薩克斯兩人,也終于可以從夜店里脫身開來,真正投身到【MySpace】的線上推廣當中。
至于【MySpace】和【紅人計劃】如何談推廣傭金,這件事就交給詹妮弗去定了。
一方面詹妮弗勢必要接觸到商業(yè)上的談判,而薩克斯、陳士駿肯定會考慮到給自己人一個溫和的談判空間。結(jié)Bing果無論如何,都不是【紅人計劃】現(xiàn)在需要關(guān)注的。
SNS的爆發(fā)期還沒有到,【紅人計劃】目前仍舊在醞釀期。這個時期的紅人資源積累,要放手給詹妮弗去嘗試。這樣在未來SNS爆發(fā)期到來之際,【Bing生態(tài)圈】才能在沒有自己關(guān)注的情況下正常運轉(zhuǎn)下去。
而另一方面,寧子默也必須要去做重要的事情。
他要霍夫曼幫忙找的人,已經(jīng)有消息了。
……
3月4日一大早,按照約定時間到達山景城領(lǐng)贏總部的寧子默,一進門就對霍夫曼笑著說:“我沒有想到你竟然這么快就找到了?!?p> “你都說讓我在斯坦福幫你找了,這么熟悉的范圍對我這位斯坦福畢業(yè)的知名學(xué)生還不是易如反掌的事?”霍夫曼笑著說。
寧子默讓霍夫曼幫忙找的人,和從德國法蘭克福【Bing】總部傳來的消息有關(guān)。
路奇的搜索引擎團隊已經(jīng)取得不小的進展,目前數(shù)據(jù)爬蟲已經(jīng)開發(fā)完畢,并且已經(jīng)開始爬取和收集數(shù)據(jù)。
但搜索算法的效率上,路奇一直不是很滿意,于是他郵件里的這份擔憂不得不讓寧子默潛藏的挖角計劃提前浮出水面。
前世里如果寧子默對Paypal公司是景仰之情,那么對于谷歌這家公司就帶著敬佩。
這家以搜索引擎起家的公司本著“不作惡的”的理念,在前世的那個世界里一度霸占著“改變世界企業(yè)榜單的Top 10”以內(nèi)位置數(shù)年時間。
所以對于谷歌,寧子默也曾像研究Paypal公司一樣研究過它的歷史。
那時候?qū)幾幽土粢獾揭粋€許多人未曾怎么關(guān)注過的小公司-Kaltix。
雖然Kaltix公司在谷歌的發(fā)展史上沒有怎么暴露過名字,但就是Kaltix公司的三個人。三位斯坦福的學(xué)生,他們開發(fā)了Kaltix,并利用了一套專有算法來加速谷歌PageRank算法的基礎(chǔ)計算,并根據(jù)個人的興趣而不是谷歌開發(fā)的共識方法對搜索結(jié)果進行排序。
這一套算法包含三個技術(shù):二次外推,BlockRank和自適應(yīng)PageRank,它們共同組成了Kaltix的基礎(chǔ)。
就是這一套和公司名一樣的技術(shù),使得谷歌搜索引擎速度提高了5倍。實際上在網(wǎng)絡(luò)有限的資料中,Kaltix說提供的技術(shù),比2003年谷歌使用的算法速度快近1000倍。
這些算法是在前世的2003年5月22日,在匈牙利的布達佩斯舉辦的第十二屆國際萬維網(wǎng)大會(WWW 2003),由他們的畢業(yè)論文提及的。
原本,寧子默計劃在5月前聯(lián)系他們。但既然路奇提前暴露出【Bing搜索】的不足,那寧子默只能將這個聯(lián)系時間提前。
“實際上,這幾個家伙正好注冊了我們的領(lǐng)贏用戶。我是先從領(lǐng)贏平臺搜索到他們是搜索引擎專家,才轉(zhuǎn)而聯(lián)系了他們。”
霍夫曼遞給寧子默幾張紙,寧子默順手接過來,那上邊正是三人的資料。
霍夫曼笑著說,“現(xiàn)在我習慣先從咱們的領(lǐng)贏數(shù)據(jù)庫里搜索人才了,碰巧他們?nèi)俗罱鼑L試在領(lǐng)贏上放上了各自的信息,并做了一些搜索引擎的探討話題,就讓我留了個心眼。而這一次回去斯坦福,我碰巧又問到了他們,于是就約了今天?!?p> 正在這個時候,敲門聲響起來了。
“人到了。”霍夫曼挑眉說,
“那可就巧了?!?p> 寧子默站起身來,和霍夫曼一起走到門邊。
門一打開,門外站著三位一臉青澀的年輕人。
“賽普坎穆瓦( Sep Kamvar),塔爾.哈維立瓦拉(Taher Haveliwala)和格蘭.杰(Glen Jeh)?”
霍夫曼準確地叫出三人的名字并笑臉相迎,讓一臉青澀的年輕人們頓時輕松不少。
“Boss,這三位是Kaltix的創(chuàng)始人,賽普·坎穆瓦( Sep Kamvar),塔爾·哈維立瓦拉(Taher Haveliwala)和格蘭·杰(Glen Jeh)?!?p> 霍夫曼對自己的稱呼,讓寧子默內(nèi)心的白眼翻到天際。
無非是自己要約談的是幾個小年輕,而自己不像霍夫曼那般“成熟穩(wěn)重”。所以他特意用了這種方式加重自己身份的方式,來讓年輕的Kaltix的三位年輕創(chuàng)始人更重視他。
“這位是我們的CEO兼首席產(chǎn)品架構(gòu)師,寧,”霍夫曼向三人介紹到,“同時,他就是前Paypal最年輕的COO先生。也是帶領(lǐng)我們Paypal走向上市和出售?!?p> 盡管萬分不習慣霍夫曼喊自己Boss,但寧子默還是感激的沖他笑了笑。
走過去與三人分別握手,然后帶著三人隨意地坐在沙發(fā)上,“三位要喝點什么?”
“三杯咖啡,謝謝?!?p> “好的,三杯咖啡。Boss你還是老樣子?”
“嗯?!?p> 霍夫曼這一番做派給足了寧子默架子,但也給這幾位年輕人一些壓力。他們哪能想到,面前這位比他們還年輕的東方人竟然比他們的前輩學(xué)長更有分量。
以至于霍夫曼出去后,三人的表現(xiàn)甚至有些拘謹。
寧子默只能先隨意聊著,等到霍夫曼送來咖啡后,場面才歡緩和了一些。
望著三人,寧子默拍了拍霍夫曼的胳膊笑著說,“霍夫曼和你們開一個小玩笑,其實我們現(xiàn)在是領(lǐng)贏的聯(lián)合創(chuàng)始人,并不存在什么上下級關(guān)系。咱們年齡相仿不必要太過客氣,所以你們喊我寧就好了?!?p> “好的,寧”
寧子默放低姿態(tài),霍夫曼也毫不在意地笑了笑。輕松的環(huán)境讓氣氛緩和不少,三人這時明顯放松下來。
叫做賽普的年輕人先一步開口,“寧,霍夫曼是我們的學(xué)長,前幾天他碰巧找到我們,說你對我們的項目感興趣準備投資,但我們沒有想到你有這么年輕?!?p> “我也沒有想到Kaltix的創(chuàng)始人是和我年齡相仿的三個年輕人,我以為像我這樣的天才只有少數(shù)幾個,可結(jié)果今天就見到三個?!?p> 彼此相似的恭維像極了“大人”的方式,幾個人頓時心照不宣的笑了起來,氣氛更加融洽起來。
乘著這個熱乎勁,寧子默放下咖啡道,“既然大家都是年輕人,我就長話短說。但是說起來這話呢,又有些長了,這確實挺矛盾點額?!?p> 寧子默平日里還是蠻喜歡搞笑的,只是年級略長一些的人一般都配合不來,倒是年輕人比較多的場合讓寧子默不由地也用上笑話開場。
Kaltix三人組聞言笑了笑,紛紛向?qū)幾幽疽饫^續(xù)。于是再端起咖啡杯的寧子默就像打開話匣子一樣,拿著帶路奇去見過的理查德·賓先生扯起了大旗。
“去年我在迷茫的時候,有幸認識了以為叫做理查德·賓的老人。那是以為傳奇老者,在他過往的歲月里。他從一個普通的啤酒花商人,轉(zhuǎn)而師從理查德·施特勞斯學(xué)習音樂,最后又在戰(zhàn)后轉(zhuǎn)攻醫(yī)學(xué)心臟病領(lǐng)域。
……理查德·賓先生的的故事幾乎跨越一整個世紀的所有年份。我征得他的同意后,想要在他的祖國德國開始創(chuàng)立我們的產(chǎn)品,并用他的名字為我們的搜索引擎命名。我想在他有生之年能作出一些成績,讓他看到我沒有埋沒他對我們的這份信任?!?p> 寧子默向Kaltix三人組添油加醋的將理查德·賓先生的故事講了一番,一些偷梁換柱的東西也被他悄然加了進去。
這兩年時間的歷練,寧子默也逐漸學(xué)會如何去講故事。只要不違背原則的情況下,為那些加入團隊的未來拍檔們?nèi)ブv理想、講未來、講情懷幾乎是必不可少的部分。
畫餅聽起來很虛無,但它在某些時刻卻有著大用處。如果這個方法可以吸納到高端人才,寧子默并不介意腹黑一些。
而且這條拐帶大拿的路,寧子默決定一直走到黑了!
“哇,酷~~~~~”
Kaltix三人組在寧子默鋪開那位傳奇老者的故事時,就聽得很入神。
無論是他推崇自己的啤酒花,
還是和老師理查德·施特勞斯的不和,
還有最后他在心臟病領(lǐng)域的各種突破,
這些故事都讓Kaltix三人組眼中閃耀著一種叫做崇拜的東西。
頓了頓,寧子默才補充道,“這款搜索引擎叫做Bing,如今它已經(jīng)被開發(fā)完成,并使用爬蟲對網(wǎng)絡(luò)信息進行爬取。但是目前,我們的【Bing】團隊在搜索算法上碰到了問題。以至于我在搜索引擎的大數(shù)據(jù)劃時代計劃,碰到了阻礙。”
“而這些阻礙,”將手指從自己轉(zhuǎn)向Kaltix三人,寧子默鄭重道,“就是我托霍夫曼找到你們這些搜索專家的主要原因?!?p> “大數(shù)據(jù)劃時代計劃?”賽普疑惑地沉吟著,末了他抬起頭向?qū)幾幽瑔柕剑奥犉饋硎且粋€很龐大的工程?!?p> “是的,是一個很龐大的工程。因為目前對于不了解搜索價值的人而言,搜索引擎只是給人們帶來結(jié)果的窗口。但真正去討論搜索引擎的價值,最能體現(xiàn)他價值的地方一定是大數(shù)據(jù)劃時代的搜索引擎時代。
想一想,曾經(jīng)我們在進行數(shù)據(jù)分析與統(tǒng)計時僅僅局限于數(shù)據(jù)庫,在數(shù)據(jù)庫中對數(shù)據(jù)表進行統(tǒng)計分析。并且受數(shù)據(jù)量和計算能力的限制,我們只能對最重要的數(shù)據(jù)進行統(tǒng)計和分析。
搜索引擎跳出了這個限制,它可以成為存儲著全世界幾乎所有可訪問的網(wǎng)頁,數(shù)目可能超過萬億規(guī)模,全部存儲起來大約需要數(shù)萬塊磁盤的大型數(shù)據(jù)庫。
雖然這件事看起來谷歌已經(jīng)在做了,但谷歌對于未來的規(guī)劃,并沒有我想象中那么清晰。
因為再往下發(fā)展下去,我想讓Bing可以把科技、文化、知識、資訊、新聞對應(yīng)的文字、圖片、視頻等林林總總的東西進行統(tǒng)一存儲管理,形成整個人類的大型數(shù)據(jù)庫。
它記錄人類文明過往的所有資料,為向未來的發(fā)展提供各種各樣的支撐條件。把它打造成為人類的諾亞方舟那樣,去造福全人類。
我可以簡單舉幾個階段性的例子,例如大數(shù)據(jù)的某一個先期階段-大數(shù)據(jù)應(yīng)用的數(shù)據(jù)倉庫時代。
而Bing可以跳出數(shù)據(jù)庫的概念去進行SQL操作,實現(xiàn)數(shù)據(jù)統(tǒng)計與分析。也就是說,人們將在Bing上用更低廉的價格獲得比以往多得多的數(shù)據(jù)存儲與計算能力。
我們可以把運行日志、應(yīng)用采集數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)放到一起進行計算分析,獲得以前無法得到的數(shù)據(jù)結(jié)果,而企業(yè)的數(shù)據(jù)倉庫也隨之呈指數(shù)級膨脹。
你們想想,在數(shù)據(jù)倉庫時代只要有數(shù)據(jù)幾乎就一定要進行統(tǒng)計分析。如果數(shù)據(jù)規(guī)模比較大,我們就會想到要用大數(shù)據(jù)技術(shù)。而技術(shù)的發(fā)展同時又促進了技術(shù)應(yīng)用,這也為接下來大數(shù)據(jù)應(yīng)用走進數(shù)據(jù)挖掘時代埋下伏筆。
而在大數(shù)據(jù)應(yīng)用的數(shù)據(jù)挖掘時代必定凌駕于大數(shù)據(jù)應(yīng)用的數(shù)據(jù)倉庫時代基礎(chǔ)之上。舉個例子,很早以前商家就通過數(shù)據(jù)發(fā)現(xiàn),買尿不濕的人通常也會買啤酒,于是精明的商家就把這兩樣商品放在一起,以促進銷售。
啤酒和尿不濕的關(guān)系,你們可以有各種解讀,但是如果不是通過數(shù)據(jù)挖掘,可能打破腦袋也想不出它們之間會有關(guān)系。
在商業(yè)環(huán)境中,如何解讀這種關(guān)系并不重要,重要的是它們之間只要存在關(guān)聯(lián),就可以進行關(guān)聯(lián)分析,最終目的是讓用戶盡可能看到想購買的商品。
除了商品和商品有關(guān)系,還可以利用人和人之間的關(guān)系推薦商品。如果兩個人購買的商品有很多都是類似甚至相同的,不管這兩個人天南海北相隔多遠,他們一定有某種關(guān)系。
比如可能有差不多的教育背景、經(jīng)濟收入、興趣愛好。根據(jù)這種關(guān)系,可以進行關(guān)聯(lián)推薦,讓他們看到自己感興趣的商品。
除了商品銷售,數(shù)據(jù)挖掘還可以用于人際關(guān)系挖掘。六度分隔理論認為世界上兩個互不認識的人,只需要很少的中間人就能把他們聯(lián)系起來。這個理論在米國的實驗結(jié)果是,通過六步就能聯(lián)系上兩個不認識的米國人。
未來像我們的【領(lǐng)贏】甚至【MySpace】,各種各樣的社交軟件記錄著我們的好友關(guān)系,通過關(guān)系圖譜挖掘,幾乎可以把世界上所有的人際關(guān)系網(wǎng)都描繪出來。
現(xiàn)代生活幾乎離不開互聯(lián)網(wǎng),各種各樣的應(yīng)用無時不刻不在收集數(shù)據(jù),這些數(shù)據(jù)在后臺的大數(shù)據(jù)集群中一刻不停地在被進行各種分析與挖掘。
當然我們也可以舉個高大上的例子,來說說理查德·賓這位傳奇相關(guān)的行業(yè)-醫(yī)療。
例如人類目前難以攻克的白血病和紅斑狼瘡,我們可以通過對病人的生活習慣、生長環(huán)境、DNA、病情發(fā)展等信息的收集,將數(shù)據(jù)采集聚集在一起,把小特殊病理變成可供參考的大數(shù)據(jù)。
而后透過不斷的數(shù)據(jù)挖掘,去分析這些病例的因由。那么科研人員對于這些不治之癥,將擁有更多可參考性的依據(jù),把原本很小的可能變成大概率可以突破的可能。
或許是讓患有這些病情的人有了被治愈的可能,或許是讓基因里包含潛在基因缺陷的胚胎在孕育的過程中避免來到人世后的痛苦。
這些分析和挖掘帶給我們的是美好還是恐懼,完全要依賴大數(shù)據(jù)從業(yè)人員的努力。但是可以肯定不管最后結(jié)果如何,這個進程只會加速不會停止,而你我只能投入其中。
但無論如何這件事值得去做,甚至為了提高效率,我們可以將一些繁瑣規(guī)律的工作交給人工智能去做,這又會讓大數(shù)據(jù)時代發(fā)展到大數(shù)據(jù)應(yīng)用的機器學(xué)習時代。
像剛剛的例子里,數(shù)據(jù)中蘊藏著規(guī)律,這個規(guī)律是所有數(shù)據(jù)都遵循的。過去發(fā)生的事情遵循這個規(guī)律,將來要發(fā)生的事情也遵循這個規(guī)律。一旦找到了這個規(guī)律,對于正在發(fā)生的事情,就可以按照這個規(guī)律進行預(yù)測。
在過去,我們受數(shù)據(jù)采集、存儲、計算能力的限制,只能通過抽樣的方式獲取小部分數(shù)據(jù),無法得到完整的、全局的、細節(jié)的規(guī)律。而未來有了大數(shù)據(jù),就可以把全部的歷史數(shù)據(jù)都收集起來,統(tǒng)計其規(guī)律,進而預(yù)測正在發(fā)生的事情。
這就是機器學(xué)習。
例如,我再舉個例子,把歷史上人類圍棋對弈的棋譜數(shù)據(jù)都存儲起來,針對每一種盤面記錄何種落子可以得到更高的贏面。得到這個統(tǒng)計規(guī)律以后,就可以利用這個規(guī)律和人下棋。
每一步都計算落在何處將得到更大的贏面,于是我們就得到了一個會下棋的機器人,說不定哪一天這個機器人就會以幾年的時間學(xué)習上千年的棋局后,通過共性和局部戰(zhàn)略的學(xué)習,通過分析人類落子的意圖分析以壓倒性優(yōu)勢下贏了人類的頂尖棋手?!?p> 也不管身邊目瞪狗呆的四人,寧子默喝了口咖啡潤了潤喉嚨,借著繼續(xù)說到:
“在我講完剛剛這些事例的時候,相信你們對于我腦中的搜索引擎已經(jīng)有了一個更遠期的看法。沒錯,它很龐大,它不止是一個可以向人們提供搜索結(jié)果的窗口,而是一個大數(shù)據(jù)時代的窗口。
Bing要做的事情就是要把人類文明從誕生到發(fā)展至今說保留的所有信息都進行存儲,讓它成為一個龐大的數(shù)據(jù)庫,讓它為各行各業(yè)的人們提供可供查證的大量數(shù)據(jù),讓人類在行進的過程中少犯錯誤、少點痛苦。
但亦或許,那也只是我的癡心妄想。因為人性的貪婪,會讓我們及時擁有這么先進的科技,仍舊避免不了那么多問題的存在。
但科技并沒有錯,完全要看我們應(yīng)用的方法,以及我們這些從業(yè)者是否能擁有一把衡量公正的尺子。
我做不了那么多去衡量公正的事情,但我的有生之年,只想讓科技更進一步,讓我身邊的團隊為了人類文明去出一份力。
至于未來那個大時代到來后會成為什么樣,我相信就算我老了,也依舊有無數(shù)有識之士能作出比我還杰出的事情。
讓人類在前行的路上,依舊走著一條正確的路。”
![](https://ccstatic-1252317822.file.myqcloud.com/portraitimg/2019-06-22/5d0d302b22f81.jpeg)
歲月靜歌
好了,以后不會這么寫技術(shù)了。 摘抄加消化,沒必要這么去水技術(shù)。 之前有很多遮遮掩掩的地方就是挖坑,我那有一份文檔記錄,后邊才會慢慢填上呢。 三更萬字達成,票子呢?