Facebook技術(shù)總監(jiān)：如何管理10億用戶的數(shù)據(jù)？

2013年01月28日 16:47

騰訊科技訊（迭影）北京時間1月28日消息，F(xiàn)acebook用戶數(shù)量，已經(jīng)突破10億大關(guān)。Facebook在發(fā)展期間，所實現(xiàn)的技術(shù)成就，成為了IT行業(yè)工程師關(guān)注的話題。究竟Facebook取得了哪些技術(shù)成就呢？Facebook前工程部門總監(jiān)，在問答網(wǎng)站Quora上，對這一問題作出回答。無論對于IT行業(yè)的投資者還是使用者，這些回答都有著指導(dǎo)意義。

以下是文章全文：

我在Facebook的基礎(chǔ)架構(gòu)軟件開發(fā)團隊，工作了5年，并且參與了多數(shù)項目的開發(fā)。我認(rèn)為在Facebook時，最偉大的成就是Memcache/MySQL集群。一年前，我離開Facebook的時候，這個集群中已經(jīng)擁有超過1萬億對象（沒錯是萬億），每秒請求數(shù)量超過10億，處理時間通常不超過1毫秒。這一集群，在多個數(shù)據(jù)中心之間，保持了良好的一致性，并且很少出現(xiàn)停機的情況。

實際上，我們?nèi)〉玫恼嬲删停cMemcache和MySQL并沒有多大的關(guān)系——隨著時間的推移，這些都將會被新的“技術(shù)”所取代，但是這里真正重要的技術(shù)，是讓數(shù)量如此龐大的機器，快速、可靠的協(xié)同工作。這并不同于通常意義上，人們在詢問“你用的是什么樣的技術(shù)？”時，所指代的東西，但是這一方面確實會出現(xiàn)很多有趣的創(chuàng)新。

這包括算法方面的技巧，如分片（Shard）、分區(qū)（Partition）、緩存數(shù)據(jù)，以及保持分布式數(shù)據(jù)的一致等。雖然像“部署和監(jiān)控”這樣的事情，聽上去似乎有些很普通，但是當(dāng)一切到了Facebook這樣大的規(guī)模，就變的不再簡單。

以下是我們面臨的一些具體的挑戰(zhàn)：

1. 數(shù)據(jù)中心間的一致性

Facebook是一個實時的應(yīng)用程序，這也就意味著，無論世界哪一個角落的數(shù)據(jù)發(fā)生改變，都需要立即顯示到所有其他的地方。因此這對一致性有著令人驚訝的高要求。

常常有人說，“哦，F(xiàn)acebook只是一個讓人覺得挺有趣的社交網(wǎng)站，一致性并沒有那么重要。”但是如果信息出現(xiàn)的時間順序有問題，或者有的消息會憑空消失，那么這些情況就很容易惹惱用戶。以下是我們在2007年，創(chuàng)建首個地理分布數(shù)據(jù)中心時的老博客：《Scaling Out Facebook》

現(xiàn)在回頭看，雖然這個方案聽起來有些嚴(yán)格，但是它真的很有用，而且?guī)椭屛覀冞_到了現(xiàn)在這個巨大得規(guī)模。而現(xiàn)在的設(shè)置顯然已經(jīng)變得更為復(fù)雜。

2. 網(wǎng)絡(luò)流

Facebook的頁面，需要很多小塊的數(shù)據(jù)，而這些往往并不容易聚集。所以我們經(jīng)?？吹降囊粋€模式，是一臺服務(wù)器，會從大量其他的服務(wù)器處，要求大量小的對象。而這里的問題在于，如果所有的服務(wù)器都在同時進行回復(fù)，你就會通過請求服務(wù)器的rack switch和網(wǎng)絡(luò)適配器（NIC）突然獲得大量的數(shù)據(jù)包，然后就會有數(shù)據(jù)包被丟棄。這就是學(xué)術(shù)文獻中所謂的“TCP incast”，而我們解決這個的方法，是對機器上發(fā)送的請求進行截流。

而當(dāng)故障（failure）出現(xiàn)的時候，網(wǎng)絡(luò)問題往往會變得更加糟糕。大多數(shù)軟件在沒有從另一個服務(wù)器獲得回應(yīng)時，都會重新發(fā)送另外一個數(shù)據(jù)包。不幸的是，大多數(shù)時候，沒有獲得回復(fù)的原因，恰恰是另外一個服務(wù)器已經(jīng)過載。因此，當(dāng)一個服務(wù)器過載嚴(yán)重，而無法作出及時回復(fù)時由于大量請求會重新發(fā)送，它的數(shù)據(jù)流量會瞬時增長一倍。

我們投入了大量的時間用于算法研究，并希望無縫處理“重試”（retry）可以解決的小問題，但是也需要確保不會在出現(xiàn)大故障的時候失去控制，因為那時候重試只會讓事情變得更糟。

3. 高速緩存配置

這里有很多東西需要平衡——如果你有大的對象，你希望通過機器進行傳遞開，這樣你就可以進行并行處理；但是如果是小的對象，你則希望它們可以同時出現(xiàn)，這樣在RPC調(diào)用會給你帶來多個對象。而Facebook需要的往往是后者，因此我們在改善“每RPC對象數(shù)量”方面，使用了很多的技巧。

很多情況都需要分離不同工作負載的對象，進行不同的調(diào)整。我們還花了大量的的時間，搞清楚是什么內(nèi)存之中最具有成本效益的東西，以及何時非規(guī)范化能有用（實踐中的大多數(shù)時候，非規(guī)范化并沒有什么實質(zhì)性的幫助）。

4. 失敗處理

正如前面網(wǎng)絡(luò)部分所提到的，有的時候一些方法能夠解決小問題，但往往會讓大問題變得更糟。例如，我有一個算法，給隨機服務(wù)器發(fā)送請求，如果它沒有得到答復(fù)，就會把請求重新發(fā)送到另一個不同的隨機服務(wù)器上，直到它得到一個答復(fù)才會停止。如果你只有一兩個機器出現(xiàn)問題的時候，這種方法顯然會表現(xiàn)很好。但是如果你一半的機器都出現(xiàn)問題，那么就成了一場災(zāi)難。

這時，所有其他的機器的負荷都會突然加倍，而如果一半的機器都出現(xiàn)問題，很有可能意味著有著負載已經(jīng)過高。這時候，你需要做的事情，是檢測過載情況，并且減少負載。重要的是，要記住計算機科學(xué)意義上的實時系統(tǒng)，意味著：一個遲到的回應(yīng)，就是一個錯誤的回應(yīng)。

放棄一個請求的時候，人們往往會感覺不好，不過這往往是最好的處理方式——在出現(xiàn)問題的時候，最大化正確答案的數(shù)量才是最正確的。

另一種常見的模式是，當(dāng)有些東西變慢的時候，就建立一個較大的隊列（queue），然后讓所有事情慢下來，減少負載。這可以是一個很棘手的算法，因為你可能在正常操作中也需要一個深隊列，來處理瞬間突發(fā)流量。

5. 提升Memcache和MySQL

我們討論到數(shù)據(jù)庫／緩存集群的時候，人們總會想到Memecache和MySQL。我們在Memcache方面做了大量的工作，以提升吞吐量——大量的分析和解決方法，這大多數(shù)都是在網(wǎng)絡(luò)棧中。因此很多這樣的工作，實際上是在Linux內(nèi)核中發(fā)生的。

在MySQL中，則是關(guān)于以一種合理的方式，獲得磁盤上的數(shù)據(jù)，并且把內(nèi)存中最有用的東西放到緩存里。馬克·卡拉漢（Mark Callaghan）的博客中，有著大量的信息：《高可用性MySQL》（ http://mysqlha.blogspot.com/）。

6. Meta

在這篇文章中，我記錄了我們所遵循的原則：《讓Facebook的用戶超過5億》

（編輯：Stev）

當(dāng)前位置

Facebook技術(shù)總監(jiān)：如何管理10億用戶的數(shù)據(jù)？

聯(lián)系我們

郵編

郵箱

地址

黨建工作辦公室

綜合部

會員部

國際部

宣傳部

監(jiān)管支撐部

網(wǎng)民權(quán)益保護部

產(chǎn)業(yè)促進部

研究部(標(biāo)準(zhǔn)工作辦公室)

創(chuàng)新發(fā)展與人才工作部

北京中互網(wǎng)來信息技術(shù)有限公司

友情鏈接

當(dāng)前位置

Facebook技術(shù)總監(jiān)：如何管理10億用戶的數(shù)據(jù)？

聯(lián)系我們

郵編

郵箱

地址

黨建工作辦公室

綜合部

會員部

國際部

宣傳部

監(jiān)管支撐部

網(wǎng)民權(quán)益保護部

產(chǎn)業(yè)促進部

研究部(標(biāo)準(zhǔn)工作辦公室)

創(chuàng)新發(fā)展與人才工作部

北京中互網(wǎng)來信息技術(shù)有限公司

友情鏈接

Facebook技術(shù)總監(jiān)：如何管理10億用戶的數(shù)據(jù)？