分布式存儲(chǔ)的重要性:云存儲(chǔ)和大數(shù)據(jù)是構(gòu)建在分布式存儲(chǔ)之上的應(yīng)用。移動(dòng)終端的計(jì)算能力和存儲(chǔ)空間有限,而且有在多個(gè)設(shè)備之間共享資源的強(qiáng)烈的需求,這就使得網(wǎng)盤、相冊(cè)等云存儲(chǔ)應(yīng)用很快流行起來(lái)。然而,萬(wàn)變不離其宗,云存儲(chǔ)的核xin還是后端的大規(guī)模分布式存儲(chǔ)系統(tǒng)。大數(shù)據(jù)則更近一步,不僅需要存儲(chǔ)海量數(shù)據(jù),還需要通過(guò)合適的計(jì)算框架或者工具對(duì)這些數(shù)據(jù)進(jìn)行分析,抽取其中有價(jià)值的部分。如果沒(méi)有分布式存儲(chǔ),便談不上對(duì)大數(shù)據(jù)進(jìn)行分析。仔細(xì)分析還會(huì)發(fā)現(xiàn),分布式存儲(chǔ)技術(shù)是互聯(lián)網(wǎng)后端架構(gòu)的神器,掌握了這項(xiàng)技能,以后理解其他技術(shù)的本質(zhì)會(huì)變得非常容易。 為了保證分布式存儲(chǔ)系統(tǒng)的高可靠和高可用,數(shù)據(jù)在系統(tǒng)中一般存儲(chǔ)多個(gè)副本?;?..
分布式存儲(chǔ)系統(tǒng)具有如下特性:數(shù)據(jù)分為多個(gè)分片存儲(chǔ)在多臺(tái)服務(wù)節(jié)點(diǎn)上。每個(gè)分片有多個(gè)副本,存儲(chǔ)在不同的服務(wù)節(jié)點(diǎn)上。許多客戶端并發(fā)訪問(wèn)系統(tǒng),執(zhí)行讀寫操作,每個(gè)讀寫操作在系統(tǒng)中需要花費(fèi)不等的時(shí)間。除非下文中特別注明和討論,讀寫操作是原子的。與數(shù)據(jù)庫(kù)事務(wù)一致性的區(qū)別:數(shù)據(jù)庫(kù)事務(wù)的ACID的中也有一個(gè)一致性(consistency),但彼一致性非此一致性。ACID中的一致性是指,數(shù)據(jù)庫(kù)的事務(wù)的執(zhí)行,或者說(shuō)事務(wù)觀察到的數(shù)據(jù),總是要滿足某些全局的一致性約束條件,如性約束,外鍵約束等。這個(gè)概念和數(shù)據(jù)庫(kù)的數(shù)據(jù)是否多副本沒(méi)關(guān)系。而本文的一致性在多副本的語(yǔ)境下才有意義。所以,數(shù)據(jù)庫(kù)事務(wù)的一致性,是指數(shù)據(jù)項(xiàng)...
什么是分布式存儲(chǔ)呢?如果一個(gè)存儲(chǔ)系統(tǒng),不管是對(duì)象、塊、文件、kv、log、olap、oltp,只要對(duì)所管理的數(shù)據(jù)做了Partitioning&Replication,不管姿勢(shì)對(duì)不對(duì),其實(shí)都可以歸納于分布式存儲(chǔ)。分布式存儲(chǔ)就是:Partitioning以多機(jī)scale,Replication以災(zāi)備容錯(cuò)。復(fù)制是解決可用性,可擴(kuò)展性和高性能的關(guān)鍵。為了災(zāi)備,數(shù)據(jù)需要冗余存儲(chǔ);為了高可用,服務(wù)需要hotstandby。缺乏災(zāi)備的系統(tǒng)難以在生產(chǎn)環(huán)境使用。元數(shù)據(jù)和數(shù)據(jù)的維護(hù)均離不開(kāi)復(fù)制,復(fù)制可轉(zhuǎn)移而不可消除。復(fù)制引出了多副本一致性問(wèn)題,而一致性保證需要考慮各種軟件和硬件故障,以及誤操作。 分布式存儲(chǔ)系...
分布式存儲(chǔ)的種類和比較:分布式存儲(chǔ)包含的種類繁多,除了傳統(tǒng)意義上的分布式文件系統(tǒng)、分布式塊存儲(chǔ)和分布式對(duì)象存儲(chǔ)外,還包括分布式數(shù)據(jù)庫(kù)和分布式緩存等,但其中架構(gòu)無(wú)外乎于三種;以HDFS(HadoopDistributionFileSystem)為代biao的架構(gòu)是典型的代biao。在這種架構(gòu)中,一部分節(jié)點(diǎn)NameNode是存放管理數(shù)據(jù)(元數(shù)據(jù)),另一部分節(jié)點(diǎn)DataNode存放業(yè)務(wù)數(shù)據(jù),這種類型的服務(wù)器負(fù)責(zé)管理具體數(shù)據(jù)。這種架構(gòu)就像公司的層次組織架構(gòu),namenode就如同老板,只管理下屬的經(jīng)理(datanode),而下屬的經(jīng)理,而經(jīng)理們來(lái)管理節(jié)點(diǎn)下本地盤上的數(shù)據(jù)。 分布式存儲(chǔ)不得不要了解的...
分布式存儲(chǔ)早期主要用于互聯(lián)網(wǎng)日志、企業(yè)備份歸檔、開(kāi)發(fā)測(cè)試等場(chǎng)景,這些場(chǎng)景無(wú)疑是低價(jià)值場(chǎng)景,成本是第yi訴求甚至訴求。然此一時(shí)彼一時(shí),士別三日也當(dāng)刮目相看。首先是分布式存儲(chǔ)產(chǎn)品能力已今非昔比,逐漸具備了承載企業(yè)高價(jià)值業(yè)務(wù)的關(guān)鍵能力,例如毫秒級(jí)時(shí)延、TB/s級(jí)帶寬、雙活/3DC業(yè)務(wù)級(jí)容災(zāi)、端到端DIF等,無(wú)論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù)的承載,功能完備性的比較大短板早已補(bǔ)齊。其次,分布式存儲(chǔ)已走入眾多高價(jià)值關(guān)鍵業(yè)務(wù),如運(yùn)營(yíng)商BOM業(yè)務(wù)、金融渠道類業(yè)務(wù)以及超算、油藏探測(cè)HPC等高價(jià)值業(yè)務(wù),通過(guò)大規(guī)模應(yīng)用實(shí)踐來(lái)檢驗(yàn)成色。(小道消息,某些高價(jià)值場(chǎng)景全閃出貨價(jià)達(dá)到1000美金/TB以上啦)看完...
得益于合理的分布式架構(gòu),分布式存儲(chǔ)可預(yù)估并且彈性擴(kuò)展計(jì)算、存儲(chǔ)容量和性能。分布式存儲(chǔ)的水平擴(kuò)展有以下幾個(gè)特性:1)節(jié)點(diǎn)擴(kuò)展后,舊數(shù)據(jù)會(huì)自動(dòng)遷移到新節(jié)點(diǎn),實(shí)現(xiàn)負(fù)載均衡,避點(diǎn)過(guò)熱的情況出現(xiàn);2)水平擴(kuò)展只需要將新節(jié)點(diǎn)和原有集群連接到同一網(wǎng)絡(luò),整個(gè)過(guò)程不會(huì)對(duì)業(yè)務(wù)造成影響;3)當(dāng)節(jié)點(diǎn)被添加到集群,集群系統(tǒng)的整體容量和性能也隨之線性擴(kuò)展,此后新節(jié)點(diǎn)的資源就會(huì)被管理平臺(tái)接管,被用于分配或者回收。隨著分布式存儲(chǔ)的發(fā)展,存儲(chǔ)行業(yè)的標(biāo)準(zhǔn)化進(jìn)程也不斷推進(jìn),分布式存儲(chǔ)優(yōu)先采用行業(yè)標(biāo)準(zhǔn)接口進(jìn)行存儲(chǔ)接入。在平臺(tái)層面,通過(guò)將異構(gòu)存儲(chǔ)資源進(jìn)行抽象化,將傳統(tǒng)的存儲(chǔ)設(shè)備級(jí)的操作封裝成面向存儲(chǔ)資源的操作,從而簡(jiǎn)化異構(gòu)...
說(shuō)到分布式存儲(chǔ),我們先來(lái)看一下傳統(tǒng)的存儲(chǔ)是怎么個(gè)樣子。傳統(tǒng)的存儲(chǔ)也稱為集中式存儲(chǔ),從概念上可以看出來(lái)是具有集中性的,也就是整個(gè)存儲(chǔ)是集中在一個(gè)系統(tǒng)中的,但集中式存儲(chǔ)并不是一個(gè)單獨(dú)的設(shè)備,是集中在一套系統(tǒng)當(dāng)中的多個(gè)設(shè)備,比如下圖中的EMC存儲(chǔ)就需要幾個(gè)機(jī)柜來(lái)存放。在這個(gè)存儲(chǔ)系統(tǒng)中包含很多組件,除了核xin的機(jī)頭(控制器)、磁盤陣列和交換機(jī)等設(shè)備外,還有管理設(shè)備等輔助設(shè)備。結(jié)構(gòu)中包含一個(gè)機(jī)頭,這個(gè)是存儲(chǔ)系統(tǒng)中為核xin的部件。通常在機(jī)頭中有包含兩個(gè)控制器,互為備用,避免硬件故障導(dǎo)致整個(gè)存儲(chǔ)系統(tǒng)的不可用。 五大主流分布式存儲(chǔ)技術(shù)對(duì)比分析,你 pick 哪一種?臺(tái)州大規(guī)模分布式存儲(chǔ)系統(tǒng)原理 分布...
什么是分布式存儲(chǔ)呢?如果一個(gè)存儲(chǔ)系統(tǒng),不管是對(duì)象、塊、文件、kv、log、olap、oltp,只要對(duì)所管理的數(shù)據(jù)做了Partitioning&Replication,不管姿勢(shì)對(duì)不對(duì),其實(shí)都可以歸納于分布式存儲(chǔ)。分布式存儲(chǔ)就是:Partitioning以多機(jī)scale,Replication以災(zāi)備容錯(cuò)。復(fù)制是解決可用性,可擴(kuò)展性和高性能的關(guān)鍵。為了災(zāi)備,數(shù)據(jù)需要冗余存儲(chǔ);為了高可用,服務(wù)需要hotstandby。缺乏災(zāi)備的系統(tǒng)難以在生產(chǎn)環(huán)境使用。元數(shù)據(jù)和數(shù)據(jù)的維護(hù)均離不開(kāi)復(fù)制,復(fù)制可轉(zhuǎn)移而不可消除。復(fù)制引出了多副本一致性問(wèn)題,而一致性保證需要考慮各種軟件和硬件故障,以及誤操作。 分布式存儲(chǔ)的...
在分布式存儲(chǔ)系統(tǒng)(包括OceanBase這樣的分布式數(shù)據(jù)庫(kù))的使用中,我們經(jīng)常會(huì)提到“一致性”這個(gè)詞,但是這個(gè)術(shù)語(yǔ)在不同的系統(tǒng)、不同人的心目中有不同的內(nèi)涵,很容易造成混淆。想象一個(gè)簡(jiǎn)單的存儲(chǔ)系統(tǒng),只有一個(gè)客戶端(單進(jìn)程)和一個(gè)服務(wù)端(單進(jìn)程服務(wù))??蛻舳隧樞虬l(fā)起讀寫操作,服務(wù)端也順序處理每個(gè)請(qǐng)求,那么無(wú)論從服務(wù)器視角還是從客戶端視角,后一個(gè)操作都可以看到前一個(gè)操作的結(jié)果。然后,系統(tǒng)變的復(fù)雜一些,系統(tǒng)還是單個(gè)服務(wù)進(jìn)程(單副本),但是有多個(gè)客戶端并發(fā)進(jìn)行操作。這個(gè)模型下,多個(gè)客戶端的操作會(huì)互相影響,比如一個(gè)客戶端會(huì)讀到不是自己寫的數(shù)據(jù)(另一個(gè)客戶端寫入的)。一般單機(jī)并發(fā)程序就是這樣的模...
很多人可能對(duì)分布式存儲(chǔ)耳熟能詳,但是,大多數(shù)人對(duì)其概念或者知識(shí)點(diǎn)卻了解得都過(guò)于分散,看了很多卻“只見(jiàn)樹木,不見(jiàn)森林”,學(xué)了很多往往只能“知其然,卻不能知其所以然”。因此,有必要對(duì)分布式存儲(chǔ)的概念、問(wèn)題和矛盾進(jìn)行一下分析和解讀。實(shí)際上,如果可能,應(yīng)該是盡量不使用分布式的,因?yàn)檫@會(huì)增加系統(tǒng)的復(fù)雜度和管理難度,然而,雖然是這樣,但這些終歸是可以通過(guò)其他技術(shù)來(lái)解決,而如果不使用分布式,系統(tǒng)的可用性、穩(wěn)定性都無(wú)法保證,更談不上系統(tǒng)的高性能了。因此,說(shuō)分布式是被迫使用的,一點(diǎn)也不夸張。 為了保證分布式存儲(chǔ)系統(tǒng)的高可靠和高可用,數(shù)據(jù)在系統(tǒng)中一般存儲(chǔ)多個(gè)副本。溫州全閃塊分布式存儲(chǔ)原理 分布式存儲(chǔ)...
什么是分布式存儲(chǔ)呢?如果一個(gè)存儲(chǔ)系統(tǒng),不管是對(duì)象、塊、文件、kv、log、olap、oltp,只要對(duì)所管理的數(shù)據(jù)做了Partitioning&Replication,不管姿勢(shì)對(duì)不對(duì),其實(shí)都可以歸納于分布式存儲(chǔ)。分布式存儲(chǔ)就是:Partitioning以多機(jī)scale,Replication以災(zāi)備容錯(cuò)。復(fù)制是解決可用性,可擴(kuò)展性和高性能的關(guān)鍵。為了災(zāi)備,數(shù)據(jù)需要冗余存儲(chǔ);為了高可用,服務(wù)需要hotstandby。缺乏災(zāi)備的系統(tǒng)難以在生產(chǎn)環(huán)境使用。元數(shù)據(jù)和數(shù)據(jù)的維護(hù)均離不開(kāi)復(fù)制,復(fù)制可轉(zhuǎn)移而不可消除。復(fù)制引出了多副本一致性問(wèn)題,而一致性保證需要考慮各種軟件和硬件故障,以及誤操作。 分布式存儲(chǔ)是...
面對(duì)海量數(shù)據(jù)的存儲(chǔ)需求,分布式存儲(chǔ)顯然在架構(gòu)上有著天然優(yōu)勢(shì),但在這波數(shù)據(jù)洪流之中也面臨著性能上的全新挑戰(zhàn)。于分布式存儲(chǔ)的工作原理是將各個(gè)存儲(chǔ)節(jié)點(diǎn)使用網(wǎng)絡(luò)互聯(lián)的方式構(gòu)建為集群,向外部提供更加可靠的高性能服務(wù),因此可以說(shuō)分布式存儲(chǔ)本質(zhì)上是一種網(wǎng)絡(luò)存儲(chǔ),其性能在很大程度上受網(wǎng)絡(luò)的影響。在高性能的分布式存儲(chǔ)中,使用傳統(tǒng)的TCP網(wǎng)絡(luò)進(jìn)行各存儲(chǔ)節(jié)點(diǎn)之間的網(wǎng)絡(luò)互聯(lián)很容易形成網(wǎng)絡(luò)瓶頸,而在分布式存儲(chǔ)容易讓用戶詬病的IO延時(shí)方面,網(wǎng)絡(luò)部分的開(kāi)銷是不可忽視的一部分。 分布式存儲(chǔ)釋放了大量被閑置的存儲(chǔ)資源,讓存儲(chǔ)變得更廉價(jià)、便捷且安全。揚(yáng)州聯(lián)想分布式存儲(chǔ) 從技術(shù)的角度,分布式存儲(chǔ)的發(fā)力點(diǎn)在大規(guī)模的擴(kuò)展...
分布式存儲(chǔ)分為文件存儲(chǔ)、對(duì)象存儲(chǔ)和塊存儲(chǔ),但它們?nèi)N存儲(chǔ)方式的基本架構(gòu)都是大同小異的。即客戶端或應(yīng)用端、元數(shù)據(jù)(MDS)服務(wù)器和數(shù)據(jù)節(jié)點(diǎn)服務(wù)器??蛻舳撕驮獢?shù)據(jù)服務(wù)器之間交互是“信令交互”,而客戶端到數(shù)據(jù)節(jié)點(diǎn)是“媒體交互”。元數(shù)據(jù)服務(wù)器或通過(guò)數(shù)據(jù)節(jié)點(diǎn)服務(wù)器獲取各節(jié)點(diǎn)服務(wù)器的基本配置情況和狀態(tài)信息。比如,客戶端需要讀取某一個(gè)文件的信息,客戶端會(huì)將相應(yīng)的要求發(fā)給元數(shù)據(jù)服務(wù)器:“喂!我需要XXX,存在哪里了”,元數(shù)據(jù)服務(wù)器查詢后回答“你到xxx服務(wù)器的xxx地址+xxx服務(wù)器的xxx地址取”。客戶端拿到這個(gè)指示后,向這2臺(tái)服務(wù)器發(fā)出指令,數(shù)據(jù)節(jié)點(diǎn)獲得指令后,將相應(yīng)的數(shù)據(jù)返回給客戶端。 分布式存儲(chǔ)不...
開(kāi)源分布式存儲(chǔ)軟件的出現(xiàn),一定程度上降低了存儲(chǔ)的門檻,小公司可快速包裝出存儲(chǔ)產(chǎn)品,帶動(dòng)服務(wù)器銷售。但產(chǎn)品同質(zhì)化問(wèn)題是所有開(kāi)源不得不面臨的問(wèn)題,由于架構(gòu)限制,很難在不動(dòng)架構(gòu)的情況下,真正做出差異化競(jìng)爭(zhēng)力?;ヂ?lián)網(wǎng)類公司、部分科研機(jī)構(gòu),以及有技術(shù)情結(jié)和充足資金投入的客戶可能選擇開(kāi)源,而對(duì)于金融、電信運(yùn)營(yíng)商、大企業(yè)商用HPC、有關(guān)部門等對(duì)可靠性、性能、安全合規(guī)有要求的企業(yè),開(kāi)源從來(lái)不是第yi選擇,因?yàn)閿?shù)據(jù)太重要了。(聽(tīng)說(shuō),國(guó)內(nèi)某知ming銀行曾經(jīng)投入500人基于開(kāi)源軟件搭建分布式存儲(chǔ),投入巨大且無(wú)法達(dá)銀行業(yè)務(wù)對(duì)性能、可靠性、易運(yùn)維訴求,終于2年后放棄。) 分布式存儲(chǔ)在數(shù)據(jù)治理場(chǎng)景中的價(jià)值定位及優(yōu)勢(shì)...
那么現(xiàn)在問(wèn)題來(lái)了,如果我們要選擇分布式存儲(chǔ),選擇哪種好呢?其實(shí)它們各有各的優(yōu)勢(shì)和使用場(chǎng)景,具體要看需求。(1)HDFS:主要用于大數(shù)據(jù)的存儲(chǔ)場(chǎng)景,是Hadoop大數(shù)據(jù)架構(gòu)中的存儲(chǔ)組件。HDFS在開(kāi)始設(shè)計(jì)的時(shí)候,就已經(jīng)明確的它的應(yīng)用場(chǎng)景,就是大數(shù)據(jù)服務(wù)。(2)Ceph:目前應(yīng)用廣的開(kāi)源分布式存儲(chǔ)系統(tǒng),已得到眾多廠商的支持,許多超融合系統(tǒng)的分布式存儲(chǔ)都是基于Ceph深度定制。而且Ceph已經(jīng)成為L(zhǎng)INUX系統(tǒng)和OpenStack的“標(biāo)配”,用于支持各自的存儲(chǔ)系統(tǒng)。Ceph可以提供對(duì)象存儲(chǔ)、塊設(shè)備存儲(chǔ)和文件系統(tǒng)存儲(chǔ)服務(wù)。同時(shí)支持三種不同類型的存儲(chǔ)服務(wù)的特性,在分布式存儲(chǔ)系統(tǒng)中,是很少見(jiàn)的...
隨著網(wǎng)絡(luò)帶寬的高速增長(zhǎng),在軟件上的消耗已成為網(wǎng)絡(luò)性能的瓶頸,而通過(guò)繞過(guò)CPU實(shí)現(xiàn)高性能傳輸?shù)腞DMA網(wǎng)絡(luò)成為分布式存儲(chǔ)不錯(cuò)的選擇。RDMA(RemoteDirectMemoryAccess),可以簡(jiǎn)單理解為網(wǎng)卡完全繞過(guò)CPU實(shí)現(xiàn)兩個(gè)服務(wù)器之間的內(nèi)存數(shù)據(jù)交換。其作為一種硬件實(shí)現(xiàn)的網(wǎng)絡(luò)傳輸技術(shù),可以大幅提升網(wǎng)絡(luò)傳輸效率,幫助網(wǎng)絡(luò)IO密集的業(yè)務(wù)(比如分布式存儲(chǔ)、分布式數(shù)據(jù)庫(kù)等)獲得更低的時(shí)延以及更高的吞吐。初的RDMA是實(shí)現(xiàn)在IB(Infiniband)上,由于其新的硬件技術(shù)棧成本比較高,主要用于HPC(高性能計(jì)算)等少數(shù)場(chǎng)景。而新的技術(shù)發(fā)展下,能夠?qū)崿F(xiàn)在以太網(wǎng)上使用RDMA。 布式存儲(chǔ)解決如何...
在整個(gè)結(jié)構(gòu)中,機(jī)頭中是整個(gè)分布式存儲(chǔ)系統(tǒng)的核xin部件,整個(gè)存儲(chǔ)系統(tǒng)的高級(jí)功能都在其中實(shí)現(xiàn)??刂破髦械能浖?shí)現(xiàn)對(duì)磁盤的管理,將磁盤抽象化為存儲(chǔ)資源池,然后劃分為L(zhǎng)UN提供給服務(wù)器使用。這里的LUN其實(shí)就是在服務(wù)器上看到的磁盤。當(dāng)然,一些集中式存儲(chǔ)本身也是文件服務(wù)器,可以提供共享文件服務(wù)。無(wú)論如何,從上面我們可以看出集中式存儲(chǔ)比較大的特點(diǎn)是有一個(gè)統(tǒng)一的入口,所有數(shù)據(jù)都要經(jīng)過(guò)這個(gè)入口,這個(gè)入口就是存儲(chǔ)系統(tǒng)的機(jī)頭。這也就是集中式存儲(chǔ)區(qū)別于分布式存儲(chǔ)明顯的特點(diǎn)。 分布式存儲(chǔ)是一種數(shù)據(jù)存儲(chǔ)技術(shù),通過(guò)網(wǎng)絡(luò)使用企業(yè)中的每臺(tái)機(jī)器上的磁盤空間。金華集中式分布式存儲(chǔ)哪家好 實(shí)際上分布式存儲(chǔ),高性能與高可用是...
分布式存儲(chǔ)采用分布式的系統(tǒng)結(jié)構(gòu),將數(shù)據(jù)以切片式或粉碎式分散在多個(gè)du立存儲(chǔ)服務(wù)器。它不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴(kuò)展,將通用硬件引入的不穩(wěn)定因素降到比較低。優(yōu)點(diǎn)如下:1、高性能。2、支持分級(jí)存儲(chǔ)。3、多副本的一致性。4、容災(zāi)與備份。5、彈性擴(kuò)展。6、存儲(chǔ)系統(tǒng)標(biāo)準(zhǔn)化。隨著分布式存儲(chǔ)的發(fā)展,存儲(chǔ)行業(yè)的標(biāo)準(zhǔn)化進(jìn)程也不斷推進(jìn),分布式存儲(chǔ)優(yōu)先采用行業(yè)標(biāo)準(zhǔn)接口進(jìn)行存儲(chǔ)接入。在平臺(tái)層面,通過(guò)將異構(gòu)存儲(chǔ)資源進(jìn)行抽象化,將傳統(tǒng)的存儲(chǔ)設(shè)備級(jí)的操作封裝成面向存儲(chǔ)資源的操作,從而簡(jiǎn)化異構(gòu)存儲(chǔ)基礎(chǔ)架構(gòu)的操作,以實(shí)現(xiàn)存儲(chǔ)資源的集中管理,并能夠自動(dòng)執(zhí)行創(chuàng)建、變更、回收等整個(gè)存儲(chǔ)生命周期流程,...
分布式存儲(chǔ)的興起與互聯(lián)網(wǎng)的發(fā)展密不可分,互聯(lián)網(wǎng)公司由于其數(shù)據(jù)量大而資本積累少,而通常都使用大規(guī)模分布式存儲(chǔ)系統(tǒng)。與傳統(tǒng)的高duan服務(wù)器、高duan存儲(chǔ)器和高duan處理器不同的是,互聯(lián)網(wǎng)公司的分布式存儲(chǔ)系統(tǒng)由數(shù)量眾多的、低成本和高性價(jià)比的普通PC服務(wù)器通過(guò)網(wǎng)絡(luò)連接而成。其主要原因有以下三點(diǎn)(1)互聯(lián)網(wǎng)的業(yè)務(wù)發(fā)展很快,而且注意成本消耗,這就使得存儲(chǔ)系統(tǒng)不能依靠傳統(tǒng)的縱向擴(kuò)展的方式,即先買小型機(jī),不夠時(shí)再買中型機(jī),甚至大型機(jī)?;ヂ?lián)網(wǎng)后端的分布式系統(tǒng)要求支持橫向擴(kuò)展,即通過(guò)增加普通PC服務(wù)器來(lái)提高系統(tǒng)的整體處理能力。(2)普通PC服務(wù)器性價(jià)比高,故障率也高,需要在軟件層面實(shí)現(xiàn)自動(dòng)容錯(cuò),...
軟硬件解耦的分布式存儲(chǔ)在性能設(shè)計(jì)上存在兩大天然缺陷:標(biāo)準(zhǔn)服務(wù)器不具備機(jī)房突然斷電時(shí)保護(hù)內(nèi)存數(shù)據(jù)的電池(BBU),所以只能用SSD卡/盤來(lái)做數(shù)據(jù)緩存。SSD的時(shí)延遠(yuǎn)高于內(nèi)存,導(dǎo)致業(yè)界絕大多數(shù)的軟硬解耦的分布式存儲(chǔ)時(shí)延無(wú)法和生產(chǎn)存儲(chǔ)媲美。單獨(dú)采購(gòu)的分布式存儲(chǔ)軟件無(wú)法和第三方服務(wù)器的SSD盤緊密配合,從而無(wú)法像業(yè)界先進(jìn)的全閃存存儲(chǔ)一樣實(shí)現(xiàn)全局垃圾回收,控制數(shù)量眾多的SSD盤各自的垃圾回收導(dǎo)致的生產(chǎn)應(yīng)用時(shí)延波動(dòng)。軟硬件一體的分布式存儲(chǔ)有機(jī)會(huì)克服如上兩大缺陷。我們看到業(yè)界先進(jìn)的分布式存儲(chǔ)產(chǎn)品,采用了類似于全閃存存儲(chǔ)的電池保護(hù)(BBU)、系統(tǒng)級(jí)全局垃圾回收,達(dá)到了媲美傳統(tǒng)生產(chǎn)存儲(chǔ)的高并發(fā)壓力下...
分布式存儲(chǔ)的種類和比較:分布式存儲(chǔ)包含的種類繁多,除了傳統(tǒng)意義上的分布式文件系統(tǒng)、分布式塊存儲(chǔ)和分布式對(duì)象存儲(chǔ)外,還包括分布式數(shù)據(jù)庫(kù)和分布式緩存等,但其中架構(gòu)無(wú)外乎于三種;以HDFS(HadoopDistributionFileSystem)為代biao的架構(gòu)是典型的代biao。在這種架構(gòu)中,一部分節(jié)點(diǎn)NameNode是存放管理數(shù)據(jù)(元數(shù)據(jù)),另一部分節(jié)點(diǎn)DataNode存放業(yè)務(wù)數(shù)據(jù),這種類型的服務(wù)器負(fù)責(zé)管理具體數(shù)據(jù)。這種架構(gòu)就像公司的層次組織架構(gòu),namenode就如同老板,只管理下屬的經(jīng)理(datanode),而下屬的經(jīng)理,而經(jīng)理們來(lái)管理節(jié)點(diǎn)下本地盤上的數(shù)據(jù)。 超大規(guī)模時(shí)空數(shù)據(jù)的分布式...
如何保證分布式存儲(chǔ)的高性能與高可用?大家可能想到的是,除了傳統(tǒng)架構(gòu)里面的備份、HotStandby、雙活、多活這種架構(gòu)之外,對(duì)于保證分布式存儲(chǔ)系統(tǒng)的高可靠和高可用,數(shù)據(jù)在系統(tǒng)中一般存儲(chǔ)多個(gè)副本。當(dāng)某個(gè)存儲(chǔ)節(jié)點(diǎn)出故障時(shí),系統(tǒng)能夠自動(dòng)將服務(wù)切換到其他的副本,從而實(shí)現(xiàn)自動(dòng)容錯(cuò)。分布式存儲(chǔ)系統(tǒng)通過(guò)復(fù)制協(xié)議將數(shù)據(jù)同步到多個(gè)存儲(chǔ)節(jié)點(diǎn),并確保多個(gè)副本之間的數(shù)據(jù)一致性。同一份數(shù)據(jù)有多個(gè)副本,只有一個(gè)為主副本Primary,其他的副本為備份副本Backup,數(shù)據(jù)從主副本復(fù)制到備份副本,采用終一致性來(lái)保證數(shù)據(jù)和事物的完整。 分布式存儲(chǔ)是未來(lái)數(shù)字產(chǎn)業(yè)生態(tài)系統(tǒng)構(gòu)建與新基建的重要引擎。徐州什么是分布式存儲(chǔ)架構(gòu)實(shí)戰(zhàn) ...
分布式云閃塊存儲(chǔ)系統(tǒng)將具有本地存儲(chǔ)資源的標(biāo)準(zhǔn)服務(wù)器硬件,用高速網(wǎng)絡(luò)連接,并通過(guò)分布式軟件,聚合多個(gè)物理機(jī)上的存儲(chǔ)空間并對(duì)外提供具有大帶寬、并行I/O、水平擴(kuò)展、容錯(cuò)以及強(qiáng)一致性的數(shù)據(jù)存儲(chǔ)系統(tǒng),魏晉元興智能科技做為大道云行總代理,提供全國(guó)行業(yè)的分布式全閃塊存儲(chǔ)備份系統(tǒng)解決方案。分布式云閃塊存儲(chǔ)系統(tǒng)將具有本地存儲(chǔ)資源的標(biāo)準(zhǔn)服務(wù)器硬件,用高速網(wǎng)絡(luò)連接,并通過(guò)分布式軟件,聚合多個(gè)物理機(jī)上的存儲(chǔ)空間并對(duì)外提供具有大帶寬、并行I/O、水平擴(kuò)展、容錯(cuò)以及強(qiáng)一致性的數(shù)據(jù)存儲(chǔ)系統(tǒng),魏晉元興智能科技做為大道云行總代理,提供全國(guó)行業(yè)的分布式全閃塊存儲(chǔ)備份系統(tǒng)解決方案。分布式云閃塊存儲(chǔ)系統(tǒng)將具有本地存儲(chǔ)資源的標(biāo)準(zhǔn)...
那么現(xiàn)在問(wèn)題來(lái)了,如果我們要選擇分布式存儲(chǔ),選擇哪種好呢?其實(shí)它們各有各的優(yōu)勢(shì)和使用場(chǎng)景,具體要看需求。(1)HDFS:主要用于大數(shù)據(jù)的存儲(chǔ)場(chǎng)景,是Hadoop大數(shù)據(jù)架構(gòu)中的存儲(chǔ)組件。HDFS在開(kāi)始設(shè)計(jì)的時(shí)候,就已經(jīng)明確的它的應(yīng)用場(chǎng)景,就是大數(shù)據(jù)服務(wù)。(2)Ceph:目前應(yīng)用廣的開(kāi)源分布式存儲(chǔ)系統(tǒng),已得到眾多廠商的支持,許多超融合系統(tǒng)的分布式存儲(chǔ)都是基于Ceph深度定制。而且Ceph已經(jīng)成為L(zhǎng)INUX系統(tǒng)和OpenStack的“標(biāo)配”,用于支持各自的存儲(chǔ)系統(tǒng)。Ceph可以提供對(duì)象存儲(chǔ)、塊設(shè)備存儲(chǔ)和文件系統(tǒng)存儲(chǔ)服務(wù)。同時(shí)支持三種不同類型的存儲(chǔ)服務(wù)的特性,在分布式存儲(chǔ)系統(tǒng)中,是很少見(jiàn)的...
分布式存儲(chǔ)包含的種類繁多,除了傳統(tǒng)意義上的分布式文件系統(tǒng)、分布式塊存儲(chǔ)和分布式對(duì)象存儲(chǔ)外,還包括分布式數(shù)據(jù)庫(kù)和分布式緩存等,但其中架構(gòu)無(wú)外乎于三種;以Ceph為代biao的架構(gòu)是其典型的代biao。在該架構(gòu)中與HDFS不同的地方在于該架構(gòu)中沒(méi)有中心節(jié)點(diǎn)??蛻舳耸峭ㄟ^(guò)一個(gè)設(shè)備映射關(guān)系計(jì)算出來(lái)其寫入數(shù)據(jù)的位置,這樣客戶端可以直接與存儲(chǔ)節(jié)點(diǎn)通信,從而避免中心節(jié)點(diǎn)的性能瓶頸。以Ceph為代biao的架構(gòu)是其典型的代biao。在該架構(gòu)中與HDFS不同的地方在于該架構(gòu)中沒(méi)有中心節(jié)點(diǎn)。客戶端是通過(guò)一個(gè)設(shè)備映射關(guān)系計(jì)算出來(lái)其寫入數(shù)據(jù)的位置,這樣客戶端可以直接與存儲(chǔ)節(jié)點(diǎn)通信,從而避免中心節(jié)點(diǎn)的性能瓶頸。 分...
分布式存儲(chǔ)在大數(shù)據(jù)環(huán)境下,元數(shù)據(jù)的體量也非常大,元數(shù)據(jù)的存取性能是整個(gè)分布式文件系統(tǒng)性能的關(guān)鍵。常見(jiàn)的元數(shù)據(jù)管理可以分為集中式和分布式元數(shù)據(jù)管理架構(gòu)。集中式元數(shù)據(jù)管理架構(gòu)采用單一的元數(shù)據(jù)服務(wù)器,實(shí)現(xiàn)簡(jiǎn)單.但是存在單點(diǎn)故障等問(wèn)題。分布式元數(shù)據(jù)管理架構(gòu)則將元數(shù)據(jù)分散在多個(gè)結(jié)點(diǎn)上.進(jìn)而解決了元數(shù)據(jù)服務(wù)器的性能瓶頸等問(wèn)題.并提高了元數(shù)據(jù)管理架構(gòu)的可擴(kuò)展性,但實(shí)現(xiàn)較為復(fù)雜,并引入了元數(shù)據(jù)一致性的問(wèn)題。另外,還有一種無(wú)元數(shù)據(jù)服務(wù)器的分布式架構(gòu),通過(guò)在線算法組織數(shù)據(jù),不需要專yong的元數(shù)據(jù)服務(wù)器。但是該架構(gòu)對(duì)數(shù)據(jù)一致性的保障很困難.實(shí)現(xiàn)較為復(fù)雜。文件目錄遍歷操作效率低下,并且缺乏文件系統(tǒng)全局監(jiān)控管理功...
說(shuō)到分布式存儲(chǔ),我們可能都會(huì)聯(lián)想到軟件定義存儲(chǔ)(SoftwareDefinedStorage,即SDS)。代biao全球存儲(chǔ)廠商的權(quán)wei協(xié)會(huì)SNIA(全球網(wǎng)絡(luò)存儲(chǔ)工業(yè)協(xié)會(huì))對(duì)SDS定義:軟件定義存儲(chǔ)包括管理面的標(biāo)準(zhǔn)接口和自動(dòng)化,以及數(shù)據(jù)面Scale-out的塊、文件和對(duì)象存儲(chǔ)服務(wù)?;蛟S我們需要把鏡頭投向21世紀(jì)初期,Google提出分布式存儲(chǔ)架構(gòu)的概念并予以實(shí)踐,在其強(qiáng)大的技術(shù)和維護(hù)團(tuán)隊(duì)支撐下,實(shí)現(xiàn)了基于在標(biāo)準(zhǔn)服務(wù)器上部署自研分布式存儲(chǔ)軟件,構(gòu)建成大規(guī)模存儲(chǔ)集群,以應(yīng)對(duì)其互聯(lián)網(wǎng)搜索業(yè)務(wù)帶來(lái)的海量數(shù)據(jù)流。 分布式存儲(chǔ)將如何挑戰(zhàn)互聯(lián)網(wǎng)巨頭?聯(lián)想分布式存儲(chǔ)系統(tǒng)架構(gòu) 與傳統(tǒng)的存儲(chǔ)架構(gòu)使用RAI...
得益于合理的分布式架構(gòu),分布式存儲(chǔ)可預(yù)估并且彈性擴(kuò)展計(jì)算、存儲(chǔ)容量和性能。分布式存儲(chǔ)的水平擴(kuò)展有以下幾個(gè)特性:1)節(jié)點(diǎn)擴(kuò)展后,舊數(shù)據(jù)會(huì)自動(dòng)遷移到新節(jié)點(diǎn),實(shí)現(xiàn)負(fù)載均衡,避點(diǎn)過(guò)熱的情況出現(xiàn);2)水平擴(kuò)展只需要將新節(jié)點(diǎn)和原有集群連接到同一網(wǎng)絡(luò),整個(gè)過(guò)程不會(huì)對(duì)業(yè)務(wù)造成影響;3)當(dāng)節(jié)點(diǎn)被添加到集群,集群系統(tǒng)的整體容量和性能也隨之線性擴(kuò)展,此后新節(jié)點(diǎn)的資源就會(huì)被管理平臺(tái)接管,被用于分配或者回收。隨著分布式存儲(chǔ)的發(fā)展,存儲(chǔ)行業(yè)的標(biāo)準(zhǔn)化進(jìn)程也不斷推進(jìn),分布式存儲(chǔ)優(yōu)先采用行業(yè)標(biāo)準(zhǔn)接口進(jìn)行存儲(chǔ)接入。在平臺(tái)層面,通過(guò)將異構(gòu)存儲(chǔ)資源進(jìn)行抽象化,將傳統(tǒng)的存儲(chǔ)設(shè)備級(jí)的操作封裝成面向存儲(chǔ)資源的操作,從而簡(jiǎn)化異構(gòu)...
如何保證分布式存儲(chǔ)的高性能與高可用?大家可能想到的是,除了傳統(tǒng)架構(gòu)里面的備份、HotStandby、雙活、多活這種架構(gòu)之外,對(duì)于保證分布式存儲(chǔ)系統(tǒng)的高可靠和高可用,數(shù)據(jù)在系統(tǒng)中一般存儲(chǔ)多個(gè)副本。當(dāng)某個(gè)存儲(chǔ)節(jié)點(diǎn)出故障時(shí),系統(tǒng)能夠自動(dòng)將服務(wù)切換到其他的副本,從而實(shí)現(xiàn)自動(dòng)容錯(cuò)。分布式存儲(chǔ)系統(tǒng)通過(guò)復(fù)制協(xié)議將數(shù)據(jù)同步到多個(gè)存儲(chǔ)節(jié)點(diǎn),并確保多個(gè)副本之間的數(shù)據(jù)一致性。同一份數(shù)據(jù)有多個(gè)副本,只有一個(gè)為主副本Primary,其他的副本為備份副本Backup,數(shù)據(jù)從主副本復(fù)制到備份副本,采用終一致性來(lái)保證數(shù)據(jù)和事物的完整。 分布式存儲(chǔ)是未來(lái)數(shù)字產(chǎn)業(yè)生態(tài)系統(tǒng)構(gòu)建與新基建的重要引擎?;窗菜拇箝_(kāi)源分布式存儲(chǔ) 分布...
分布式存儲(chǔ)傳統(tǒng)數(shù)據(jù)存儲(chǔ)模型需要支持盡可能多的應(yīng)用,因此需要具備較好的通用性。大數(shù)據(jù)具有大規(guī)模、高動(dòng)態(tài)及快速處理等特性,通用的數(shù)據(jù)存儲(chǔ)模型通常并不是能提高應(yīng)用性能的模型.而大數(shù)據(jù)存儲(chǔ)系統(tǒng)對(duì)上層應(yīng)用性能的關(guān)注遠(yuǎn)遠(yuǎn)超過(guò)對(duì)通用性的追求。針對(duì)應(yīng)用和負(fù)載來(lái)優(yōu)化存儲(chǔ),就是將數(shù)據(jù)存儲(chǔ)與應(yīng)用耦合。簡(jiǎn)化或擴(kuò)展分布式文件系統(tǒng)的功能,根據(jù)特定應(yīng)用、特定負(fù)載、特定的計(jì)算模型對(duì)文件系統(tǒng)進(jìn)行定制和深度優(yōu)化,使應(yīng)用達(dá)到比較好性能。這類優(yōu)化技術(shù)在谷歌、Facebook等互聯(lián)網(wǎng)公司的內(nèi)部存儲(chǔ)系統(tǒng)上,管理超過(guò)千萬(wàn)億字節(jié)級(jí)別的大數(shù)據(jù),能夠達(dá)到非常高的性能。 分布式存儲(chǔ)系統(tǒng)需要多臺(tái)服務(wù)器同時(shí)工作。杭州大數(shù)據(jù)分布式存儲(chǔ)的一般架構(gòu) ...