解決方案 > 萬(wàn)方大數(shù)據(jù)平臺(tái)
基于云與大數(shù)據(jù)的解決方案幫助企業(yè)成功轉(zhuǎn)型
1平臺(tái)概述
當(dāng)前數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素,對(duì)于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長(zhǎng)和社會(huì)各行業(yè)變革的到來(lái),在全球已經(jīng)全面進(jìn)入信息時(shí)代的今天,據(jù)IDC預(yù)測(cè),全球大數(shù)據(jù)市場(chǎng)規(guī)模有望在2017年達(dá)530億美元,并在未來(lái)幾年內(nèi)依然保持30%以上的年復(fù)合增長(zhǎng)率。大數(shù)據(jù)機(jī)主要針對(duì)國(guó)家面向大型企業(yè)應(yīng)用的共性云計(jì)算基礎(chǔ)平臺(tái)研制,基于分布式算法、數(shù)據(jù)管理技術(shù),提高大數(shù)據(jù)挖掘與智能服務(wù)的能力。大數(shù)據(jù)機(jī)的研制符合國(guó)家信息安全政策導(dǎo)向,從CPU芯片、服務(wù)器系統(tǒng)設(shè)計(jì)和制造到操作系統(tǒng)、共性支撐軟件、虛擬化技術(shù)和系統(tǒng)集群實(shí)現(xiàn)了實(shí)現(xiàn)了全棧式、一體化數(shù)據(jù)治理支撐。
圖1 國(guó)產(chǎn)大數(shù)據(jù)平臺(tái)
WFCloud大數(shù)據(jù)平臺(tái)處于系統(tǒng)的平臺(tái)服務(wù)層,是龍芯、申威、飛騰等處理器平臺(tái)上定制開(kāi)發(fā)的大數(shù)據(jù)處理軟件,在大數(shù)據(jù)機(jī)集群上,通過(guò)虛擬化為大數(shù)據(jù)處理提供資源池,形成大數(shù)據(jù)處理集群,軟件在集群上進(jìn)行了充分的適配和優(yōu)化,將檢索查詢、圖算、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、實(shí)時(shí)數(shù)據(jù)處理等模型統(tǒng)一到一個(gè)基礎(chǔ)平臺(tái)下,并以一致的接口API公開(kāi),提供各類業(yè)務(wù)應(yīng)用信息引接,多源數(shù)據(jù)處理的大數(shù)據(jù)平臺(tái)服務(wù),并能提供各類大數(shù)據(jù)處理、分析工具,對(duì)各類業(yè)務(wù)信息、多源數(shù)據(jù)做分析、提取,為輔助決策系統(tǒng)提供有效支撐。2 平臺(tái)設(shè)計(jì)
WFCloud大數(shù)據(jù)平臺(tái)主要解決分布式存儲(chǔ)和計(jì)算底層實(shí)現(xiàn),采用分布式集群做底層實(shí)現(xiàn),利用分布式文件系統(tǒng)存儲(chǔ)數(shù)據(jù),利用分布式計(jì)算實(shí)現(xiàn)大數(shù)據(jù)的任務(wù)處理,輔助使用內(nèi)存計(jì)算解決分布式計(jì)算寫(xiě)文件系統(tǒng)帶來(lái)的速度問(wèn)題。對(duì)上通過(guò)提供各類數(shù)據(jù)存儲(chǔ)、計(jì)算以及挖掘接口,提供業(yè)務(wù)服務(wù)計(jì)算和數(shù)據(jù)支撐,在具備海量數(shù)據(jù)的情況下可以專注業(yè)務(wù)開(kāi)發(fā)而無(wú)需關(guān)心底層數(shù)據(jù)組織方式,尤其是現(xiàn)有的一些基于Hadoop、HBase、Hive的程序可以更加簡(jiǎn)單的遷移到龍芯、申威、飛騰等處理器架構(gòu)服務(wù)器系統(tǒng)。2.1 平臺(tái)架構(gòu)
WFCloud大數(shù)據(jù)平臺(tái)搭建在龍芯、申威、飛騰等處理器架構(gòu)服務(wù)器上,在服務(wù)器上做了大量適配和優(yōu)化,并根據(jù)硬件特點(diǎn)進(jìn)行架構(gòu)重寫(xiě),滿足大數(shù)據(jù)使用需求。其中主要針對(duì)大數(shù)據(jù)軟件的可靠性、性能調(diào)優(yōu)等方面著重進(jìn)行了優(yōu)化和提升。大數(shù)據(jù)平臺(tái)在實(shí)際生產(chǎn)環(huán)境中盡可能的對(duì)所有軟件都提供主從雙機(jī)的HA形式,采用主備或負(fù)荷分擔(dān)配置,有效避免單點(diǎn)故障場(chǎng)景對(duì)系統(tǒng)可靠性的影響。提供大數(shù)據(jù)軟件的自動(dòng)化部署工具,實(shí)現(xiàn)一鍵式安裝程序和一鍵式集群控制功能。大數(shù)據(jù)平臺(tái)軟件架構(gòu)如下圖所示。圖2 大數(shù)據(jù)平臺(tái)軟件架構(gòu)
2.2.核心組件
2.2.1 WFCloud大數(shù)據(jù)基礎(chǔ)平臺(tái)
WFCloud大數(shù)據(jù)基礎(chǔ)平臺(tái)基于開(kāi)源大數(shù)據(jù)架構(gòu)Apache Hadoop構(gòu)建,可構(gòu)建在龍芯、申威、飛騰等處理器架構(gòu)服務(wù)器之上,基于HDFS構(gòu)建分布式文件系統(tǒng)實(shí)現(xiàn)海量存儲(chǔ),基于MapReduce框架實(shí)現(xiàn)分布式并行處理,結(jié)合主從備份架構(gòu)實(shí)現(xiàn)系統(tǒng)高可用,為大數(shù)據(jù)處理系統(tǒng)提供分布式計(jì)算和分布式存儲(chǔ)能力,為上層數(shù)據(jù)庫(kù)系統(tǒng)和其他應(yīng)用系統(tǒng)提供平臺(tái)支撐。分布式存儲(chǔ)是一個(gè)主/從(Master/Slave)體系結(jié)構(gòu),如上圖所示。由于分布式存儲(chǔ)的性質(zhì),存儲(chǔ)集群擁有主備控制節(jié)點(diǎn)和若干數(shù)據(jù)節(jié)點(diǎn)??刂乒?jié)點(diǎn)管理文件系統(tǒng)的元數(shù)據(jù),數(shù)據(jù)節(jié)點(diǎn)則存儲(chǔ)實(shí)際的數(shù)據(jù)??蛻舳送ㄟ^(guò)與控制節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)的交互訪問(wèn)文件系統(tǒng)??蛻舳寺?lián)系控制節(jié)點(diǎn)以獲取文件的元數(shù)據(jù),而真正的文件I/O操作是直接和數(shù)據(jù)節(jié)點(diǎn)進(jìn)行交互的。
WFCloud大數(shù)據(jù)基礎(chǔ)平臺(tái)通過(guò)冗余備份、副本存放、心跳檢測(cè)、安全模式、數(shù)據(jù)完整性檢測(cè)、空間回收、元數(shù)據(jù)磁盤(pán)失效和快照等方法可以有效保障分布式文件系統(tǒng)的可靠性。平臺(tái)采用Yarn作為資源管理系統(tǒng),可以為各類應(yīng)用程序進(jìn)行資源管理和調(diào)度。基于龍芯、申威、飛騰等處理器平臺(tái)優(yōu)化的MapReduce框架提供快速并行處理大量數(shù)據(jù)的能力,作為分布式數(shù)據(jù)處理模式以及執(zhí)行環(huán)境。
WFCloud大數(shù)據(jù)基礎(chǔ)平臺(tái)針對(duì)不同的應(yīng)用場(chǎng)景和不同的應(yīng)用側(cè)重點(diǎn),如存儲(chǔ)、離線計(jì)算、分布式計(jì)算等方向,能夠有針對(duì)性地對(duì)配置進(jìn)行優(yōu)化,具備高度的可定制性和擴(kuò)展性。
2.2.2 WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架
WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架是基于開(kāi)源框架Apache Spark構(gòu)建,針對(duì)龍芯、申威、飛騰等處理器平臺(tái)將其相關(guān)的集群軟件、監(jiān)控軟件進(jìn)行了重新定制開(kāi)發(fā)。Spark是一個(gè)圍繞速度、易用性和復(fù)雜構(gòu)建的大數(shù)據(jù)處理框架。它提供了一個(gè)全面、統(tǒng)一的框架用于管理各種有著不同性質(zhì)(文本數(shù)據(jù)、圖表數(shù)據(jù)等)的數(shù)據(jù)集和數(shù)據(jù)源(批量數(shù)據(jù)或?qū)崟r(shí)的流數(shù)據(jù))的大數(shù)據(jù)處理的需求。Spark使用了內(nèi)存內(nèi)運(yùn)算技術(shù),能在數(shù)據(jù)尚未寫(xiě)入硬盤(pán)時(shí)即在內(nèi)存內(nèi)分析運(yùn)算。Spark項(xiàng)目主要由RDDs(彈性分布式數(shù)據(jù)集)、Spark SQL、Spark Streaming、Spark MLib和Spark GraphX這幾個(gè)要素組成。WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架的特點(diǎn)如下:
● 支持分布式內(nèi)存計(jì)算
● 支持迭代式的計(jì)算
● 兼容Hadoop系統(tǒng)文件讀寫(xiě)方式
● 計(jì)算過(guò)程容錯(cuò)
● 支持多種語(yǔ)言開(kāi)發(fā)應(yīng)用(Scala/Java/Python)
● 計(jì)算能力線性擴(kuò)展
WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架是基于內(nèi)存的迭代計(jì)算框架(如圖4所示),適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場(chǎng)合,如機(jī)器學(xué)習(xí),圖挖掘算法以及交互式數(shù)據(jù)挖掘算法等。在計(jì)算過(guò)程中需要反復(fù)操作的次數(shù)越多,所需讀取的數(shù)據(jù)量越大,受益越大,數(shù)據(jù)量小但是計(jì)算密度較大的場(chǎng)合,受益則相對(duì)較小。由于彈性數(shù)據(jù)集的特性,不適用于異步細(xì)粒度更新?tīng)顟B(tài)的應(yīng)用,例如Web應(yīng)用服務(wù)的數(shù)據(jù)存儲(chǔ)。
WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架中計(jì)算的數(shù)據(jù)可以來(lái)自多個(gè)數(shù)據(jù)源,如Local File、HDFS等。WFCloud云計(jì)算平臺(tái)使用HDFS作為其底層數(shù)據(jù)存儲(chǔ),用戶能夠快速的從MapReduce切換到WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架,可以一次讀取大規(guī)模的數(shù)據(jù)進(jìn)行并行計(jì)算。在計(jì)算完成后,將計(jì)算結(jié)果存儲(chǔ)到HDFS中,WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架可以提供比MapReduce高10到100倍的性能。WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架作為計(jì)算引擎,還支持小批量流式處理、離線批處理、SQL查詢、數(shù)據(jù)挖掘,避免用戶在這幾類不同的系統(tǒng)中加載同一份數(shù)據(jù)帶來(lái)的存儲(chǔ)和性能上的開(kāi)銷。
在龍芯、申威、飛騰等服務(wù)器與X86設(shè)備性能存在差距的情況下,采用內(nèi)存計(jì)算框架能在一定程度上彌補(bǔ)MapReduce在執(zhí)行性能上的缺陷,如中間結(jié)果輸出、數(shù)據(jù)格式和內(nèi)存分布、執(zhí)行策略以及任務(wù)調(diào)度的開(kāi)銷等方面的提升。
2.2.3 WFCloud大數(shù)據(jù)庫(kù)系統(tǒng)
各類型軍事信息系統(tǒng)中,數(shù)據(jù)庫(kù)支撐了各種類型數(shù)據(jù)的存儲(chǔ)、查詢和統(tǒng)計(jì)分析等功能,但隨著一些特定類型數(shù)據(jù)的數(shù)據(jù)量的不斷增長(zhǎng),如傳感器、目標(biāo)軌跡和日志信息數(shù)據(jù)等,已達(dá)到普通數(shù)據(jù)庫(kù)存儲(chǔ)和訪問(wèn)的極限,NoSQL數(shù)據(jù)庫(kù)訪問(wèn)性能和存儲(chǔ)拓展性方面的優(yōu)越性成為解決問(wèn)題的關(guān)鍵。關(guān)系型數(shù)據(jù)庫(kù)不再是唯一選擇,數(shù)據(jù)庫(kù)領(lǐng)域正進(jìn)入混合持久化時(shí)代,即采用多種數(shù)據(jù)庫(kù)解決方案,并使用不同數(shù)據(jù)存儲(chǔ)模型,這種解決數(shù)據(jù)持久化存儲(chǔ)問(wèn)題的混合方式逐漸被采納。WFCloud大數(shù)據(jù)庫(kù)系統(tǒng)(WFBase)基于開(kāi)源數(shù)據(jù)庫(kù)Apache HBase構(gòu)建,是高可靠、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫(kù),能夠提供海量數(shù)據(jù)的存儲(chǔ)功能,大致架構(gòu)如圖5所示。大數(shù)據(jù)數(shù)據(jù)庫(kù)基于One Rule Them All設(shè)計(jì)思想,用于處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和檢索,為業(yè)務(wù)系統(tǒng),數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建和數(shù)據(jù)挖掘提供數(shù)據(jù)庫(kù)級(jí)數(shù)據(jù)存儲(chǔ)和檢索,方便應(yīng)用開(kāi)發(fā)。系統(tǒng)緊密結(jié)合龍芯、申威、飛騰等服務(wù)器特性,充分發(fā)揮了硬件性能,提升了數(shù)據(jù)庫(kù)系統(tǒng)的整體性能。
圖5 WFBase架構(gòu)
WFBase利用HDFS作為其文件存儲(chǔ)系統(tǒng),除了WFBase產(chǎn)生的一些日志文件,WFBase中的所有數(shù)據(jù)文件都可以存儲(chǔ)在HDFS文件系統(tǒng)上。HDFS為WFBase提供了高可靠性的底層存儲(chǔ)支持。
WFBase適合于存儲(chǔ)大表數(shù)據(jù)(表的規(guī)??梢赃_(dá)到數(shù)十億行以及數(shù)百萬(wàn)列),并且對(duì)大表數(shù)據(jù)的讀、寫(xiě)訪問(wèn)可以達(dá)到實(shí)時(shí)級(jí)別,提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫(xiě)的數(shù)據(jù)庫(kù)系統(tǒng)。WFBase利用ZooKeeper作為協(xié)同服務(wù),可使用WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架和MapReduce來(lái)處理WFBase中的海量數(shù)據(jù)。
2.2.4 WFCloud大數(shù)據(jù)倉(cāng)庫(kù)
WFCloud大數(shù)據(jù)倉(cāng)庫(kù)基于開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)Apache Hive構(gòu)建,主要提供類似SQL的語(yǔ)言操作結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)服務(wù)和基本的數(shù)據(jù)分析服務(wù)。WFCloud大數(shù)據(jù)倉(cāng)庫(kù)為單實(shí)例的服務(wù)進(jìn)程,提供服務(wù)的原理是將WQL編譯解析成相應(yīng)的MapReduce或者HDFS任務(wù)。WFCloud大數(shù)據(jù)倉(cāng)庫(kù)作為一個(gè)基于HDFS和MapReduce架構(gòu)的數(shù)據(jù)倉(cāng)庫(kù)(如圖6所示),其主要能力是通過(guò)對(duì)WQL(WFCloud Query Language)編譯和解析,生成并執(zhí)行相應(yīng)的MapReduce任務(wù)或者HDFS操作。
WFCloud大數(shù)據(jù)倉(cāng)庫(kù)主要特點(diǎn)如下:
- 海量結(jié)構(gòu)化數(shù)據(jù)分析匯總
- 將復(fù)雜的MapReduce編寫(xiě)任務(wù)簡(jiǎn)化為SQL語(yǔ)句
- 靈活的數(shù)據(jù)存儲(chǔ)格式,支持JSON,CSV,TEXTFILE,RCFILE,SEQUENCEFILE這幾種存儲(chǔ)格式
WFCloud大數(shù)據(jù)倉(cāng)庫(kù)包括如下相關(guān)組件:
- 用戶接口:包括WFCloudshell,Thrift客戶端,Web管理
- Thrift服務(wù)器:當(dāng)WFCloud大數(shù)據(jù)倉(cāng)庫(kù)以服務(wù)器模式運(yùn)行時(shí),可以作為T(mén)hrift服務(wù)器,供客戶端連接
- 元數(shù)據(jù)庫(kù):通常存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)(MySQL、Derby等)中
- 解析器:包括解釋器、編譯器、優(yōu)化器、執(zhí)行器,通過(guò)一系列的處理對(duì)HiveQL查詢語(yǔ)句的詞法分析、語(yǔ)法分析、編譯、優(yōu)化以及查詢計(jì)劃的生成。查詢計(jì)劃由MapReduce調(diào)用執(zhí)行
3 案例
3.1 信息服務(wù)中心大數(shù)據(jù)融合平臺(tái)
大數(shù)據(jù)融合平臺(tái)部署在網(wǎng)絡(luò)上,主要為海量多源異構(gòu)數(shù)據(jù)提供實(shí)時(shí)入庫(kù)、實(shí)時(shí)檢索、實(shí)時(shí)分析等功能。同時(shí)提供分布式數(shù)據(jù)處理平臺(tái),具備流數(shù)據(jù)處理和數(shù)據(jù)挖掘能力。大數(shù)據(jù)融合平臺(tái)數(shù)據(jù)處理層結(jié)構(gòu)如下圖所示:大數(shù)據(jù)融合平臺(tái)基于分布式文件系統(tǒng)構(gòu)建,集成Hadoop分布式計(jì)算平臺(tái),支持傳統(tǒng)MapReduce和內(nèi)存計(jì)算的分布式計(jì)算架構(gòu),具有超強(qiáng)的分布式計(jì)算能力,能支持從TB級(jí)乃至PB級(jí)數(shù)據(jù)的快捷、高效處理。
大數(shù)據(jù)融合平臺(tái)的核心為數(shù)據(jù)庫(kù)系統(tǒng),主要解決海量數(shù)據(jù)存儲(chǔ)與海量數(shù)據(jù)高速檢索兩個(gè)問(wèn)題。大數(shù)據(jù)融合平臺(tái)基于SQL on Hadoop自主研制大數(shù)據(jù)數(shù)據(jù)庫(kù)系統(tǒng),解決結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),對(duì)入口數(shù)據(jù)進(jìn)行實(shí)時(shí)索引,對(duì)數(shù)據(jù)進(jìn)行分析、分割、提取后將其存儲(chǔ)在大數(shù)據(jù)數(shù)據(jù)庫(kù)系統(tǒng)。同時(shí)緊密結(jié)合硬件平臺(tái),基于平臺(tái)進(jìn)行優(yōu)化,充分發(fā)揮硬件性能,提升數(shù)據(jù)庫(kù)性能。
數(shù)據(jù)處理層支持實(shí)時(shí)處理、流處理、圖算以及數(shù)據(jù)挖掘,數(shù)據(jù)挖掘可以基于數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行檢索,處理和建模,支持?jǐn)?shù)據(jù)的深度挖掘和商業(yè)智能分析。
3.2 目標(biāo)區(qū)氣象保障系統(tǒng)
目標(biāo)區(qū)氣象保障系統(tǒng)是用于保障打擊目標(biāo)區(qū)域環(huán)境判定的專用系統(tǒng)。專用氣象保障系統(tǒng)近17個(gè)子系統(tǒng),由信息接收處理、精細(xì)化預(yù)報(bào)預(yù)警、決策支持、保障應(yīng)用和業(yè)務(wù)支撐等分系統(tǒng)組成,各分系統(tǒng)的后臺(tái)處理單元采用龍芯、申威、飛騰等服務(wù)器設(shè)備。氣象數(shù)據(jù)是一類非常典型的非結(jié)構(gòu)化數(shù)據(jù),在實(shí)際應(yīng)用中其日增量達(dá)數(shù)十TB。為滿足該項(xiàng)目需求,建立一個(gè)集成各類應(yīng)用服務(wù)、數(shù)據(jù)預(yù)處理、實(shí)時(shí)存儲(chǔ)、快速檢索、智能分析以及二、三維可視化展示為一體的氣象保障大數(shù)據(jù)處理平臺(tái)。
氣象保障系統(tǒng)軟件框架如圖所示:
圖8氣象保障大數(shù)據(jù)平臺(tái)應(yīng)用拓?fù)?/strong>
數(shù)據(jù)存儲(chǔ)層是業(yè)務(wù)的重要部分,其中內(nèi)存存儲(chǔ)采用內(nèi)存數(shù)據(jù)庫(kù)Redis進(jìn)行集群搭建,對(duì)需要實(shí)時(shí)處理的數(shù)據(jù)進(jìn)行有效快速處理;持久化存儲(chǔ)采用傳統(tǒng)達(dá)夢(mèng)數(shù)據(jù)庫(kù)集群搭建,對(duì)需要持久化的數(shù)據(jù)進(jìn)行存儲(chǔ)備份,起到安全防護(hù)作用;分布式文件存儲(chǔ)采用MongoDB數(shù)據(jù)庫(kù)進(jìn)行集群搭建,對(duì)非關(guān)系型數(shù)據(jù)進(jìn)行快速有效存儲(chǔ),供多用戶進(jìn)行實(shí)時(shí)訪問(wèn);近線存儲(chǔ)由WFBase集群搭建,主要用于存儲(chǔ)訪問(wèn)量不大且訪問(wèn)性能較高的應(yīng)用,同時(shí)要求設(shè)備具有相當(dāng)大的存儲(chǔ)容量和靈活的集群伸縮性。
平臺(tái)服務(wù)層為業(yè)務(wù)應(yīng)用提供基礎(chǔ)服務(wù)及系統(tǒng)平臺(tái),主要包括云計(jì)算大數(shù)據(jù)平臺(tái)及二、三維地理信息系統(tǒng)平臺(tái)。數(shù)據(jù)服務(wù)層針對(duì)具體應(yīng)用可進(jìn)行彈性插件式擴(kuò)展。數(shù)據(jù)處理服務(wù)包括數(shù)據(jù)分發(fā)、數(shù)據(jù)接收兩部分。
業(yè)務(wù)可視化層是為用戶提供數(shù)據(jù)分析、推演的展示單元,通過(guò)終端可對(duì)氣象數(shù)據(jù)實(shí)時(shí)分析和服務(wù)監(jiān)控。
整個(gè)氣象保障系統(tǒng)核心數(shù)據(jù)存儲(chǔ)和處理部分主要利用WFCloud大數(shù)據(jù)平臺(tái)構(gòu)建,實(shí)現(xiàn)系統(tǒng)的國(guó)產(chǎn)化的同時(shí)保障了系統(tǒng)處理性能。
3.3某數(shù)據(jù)中心建設(shè)
該項(xiàng)目以申威大數(shù)據(jù)機(jī)和睿思操作系統(tǒng)為基礎(chǔ)平臺(tái),提供虛擬化和大數(shù)據(jù)處理技術(shù),完成海量非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和檢索平臺(tái)的搭建。為上層傳統(tǒng)數(shù)據(jù)庫(kù)應(yīng)用、數(shù)據(jù)挖掘應(yīng)用、數(shù)據(jù)可視化提供底層支撐。分布式處理平臺(tái)構(gòu)建在申威大數(shù)據(jù)機(jī)集群上,利用神威虛擬化技術(shù)擴(kuò)充集群規(guī)模,采用分布式文件系統(tǒng)實(shí)現(xiàn)分布式存儲(chǔ),利用分布式計(jì)算和Map Reduce設(shè)計(jì)實(shí)現(xiàn)分布式計(jì)算框架,結(jié)合主從備份架構(gòu)實(shí)現(xiàn)系統(tǒng)高可用,為神威大數(shù)據(jù)處理系統(tǒng)提供分布式計(jì)算和存儲(chǔ)能力,具體軟件架構(gòu)如圖所示。
項(xiàng)目具體實(shí)施分為以下幾步:
1)申威平臺(tái)下的分布式處理平臺(tái)的移植和優(yōu)化;
2)利用WFCloud大數(shù)據(jù)平臺(tái)構(gòu)建分布式處理平臺(tái)系統(tǒng)、WFBase數(shù)據(jù)庫(kù)的具體實(shí)施、測(cè)試;
3)大數(shù)據(jù)平臺(tái)搭建后,和神通數(shù)據(jù)庫(kù)進(jìn)行交互使用。提供相關(guān)數(shù)據(jù)挖掘和檢索接口,提供基礎(chǔ)平臺(tái)應(yīng)用系統(tǒng)移植支撐,提供數(shù)據(jù)交互模塊接口;
4)與神通數(shù)據(jù)庫(kù)共同完成數(shù)據(jù)庫(kù)測(cè)試工作。
5)與南大通用共同完成GBase8A數(shù)據(jù)庫(kù)測(cè)試工作。
3.4某學(xué)院申威大數(shù)據(jù)平臺(tái)建設(shè)
該項(xiàng)目打造以申威大數(shù)據(jù)機(jī)和睿思操作系統(tǒng)為基礎(chǔ)平臺(tái),虛擬化和大數(shù)據(jù)處理技術(shù)為核心支撐的國(guó)防大數(shù)據(jù)信息融合平臺(tái)。國(guó)防作為對(duì)安全要求極高的行業(yè),對(duì)龍芯、飛騰、申威等基礎(chǔ)軟硬件尤為青睞。申威大數(shù)據(jù)一體化解決方案,從硬件、操作系統(tǒng)、大數(shù)據(jù)軟件、虛擬化軟件、應(yīng)用接口幾大部分均采用自研技術(shù),并融合安全中間件和安全數(shù)據(jù)庫(kù),為國(guó)防大數(shù)據(jù)建設(shè)新型信息化融合平臺(tái)。
為滿足某學(xué)院信息融合中心的信息化研制需求,需完成基礎(chǔ)環(huán)境、平臺(tái)應(yīng)用以及系統(tǒng)服務(wù)三個(gè)層次的建設(shè)工作。其中,平臺(tái)應(yīng)用層中核心應(yīng)用支撐環(huán)境是較為重要的環(huán)節(jié)之一,包含對(duì)基礎(chǔ)庫(kù)、基礎(chǔ)中間件、基礎(chǔ)開(kāi)發(fā)運(yùn)行環(huán)境、基礎(chǔ)開(kāi)發(fā)驅(qū)動(dòng)等系統(tǒng)軟件的融合搭建。WFCloud大數(shù)據(jù)基礎(chǔ)平臺(tái)、WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架以及WFBase系統(tǒng)基于軟硬件基礎(chǔ)環(huán)境(申威服務(wù)器)進(jìn)行建立。結(jié)合國(guó)內(nèi)化先進(jìn)的云計(jì)算大數(shù)據(jù)架構(gòu)、技術(shù),通過(guò)源碼重構(gòu)、軟件架構(gòu)重構(gòu),形成了申威大數(shù)據(jù)平臺(tái)架構(gòu),大致如圖所示。
操作系統(tǒng)依賴于硬件平臺(tái),但又有其特殊性。解決了開(kāi)源Linux的移植、基礎(chǔ)庫(kù)移植、驅(qū)動(dòng)的移植等問(wèn)題,然后技術(shù)人員進(jìn)行優(yōu)化適配。核心應(yīng)用支撐環(huán)境就是為了建立一個(gè)用戶反饋和技術(shù)人員優(yōu)化的一個(gè)一體化平臺(tái)。根據(jù)用戶對(duì)應(yīng)用的指標(biāo)需求,結(jié)合操作系統(tǒng)開(kāi)源基礎(chǔ)軟件的優(yōu)化,解決用戶使用的難題。