化繁為簡，數(shù)字化推動企業(yè)數(shù)據(jù)庫升級煥新 | 愛分析報告

華夏經(jīng)緯網(wǎng) > 新聞 > 大陸新聞 > 社會綜合 2023-01-14 12:11:35

報告編委

黃勇

愛分析合伙人&首席分析師

洪逸群

愛分析高級分析師

張良筠

愛分析分析師

外部專家(按姓氏拼音排序)

李遠(yuǎn)志

柏睿數(shù)據(jù) 副總裁

謝寅

鏡舟科技資深解決方案架構(gòu)師

許哲

中信建投證券數(shù)據(jù)組VP

姚延棟

YMatrix 創(chuàng)始人&CEO

張晨

創(chuàng)鄰科技 CEO

特別鳴謝(按拼音排序)

報告摘要

隨著近幾年整個產(chǎn)業(yè)數(shù)字化進(jìn)程的深入，數(shù)據(jù)庫的應(yīng)用場景變得更多、更復(fù)雜，導(dǎo)致數(shù)據(jù)庫需要應(yīng)對相比以往急劇增長的數(shù)據(jù)規(guī)模，處理更加多樣的數(shù)據(jù)類型，以及具備更加復(fù)雜的場景化能力。

因此，近年來，高性能、非關(guān)系型數(shù)據(jù)支持、簡化使用和運(yùn)維，場景化解決方案等能力成為企業(yè)應(yīng)用數(shù)據(jù)庫的關(guān)鍵考量因素，多種新一代的數(shù)據(jù)庫也逐漸在企業(yè)中落地。

分析型數(shù)據(jù)庫釋放業(yè)務(wù)數(shù)據(jù)潛在價值

分析型數(shù)據(jù)庫作為數(shù)據(jù)基礎(chǔ)設(shè)施的核心，需要提供高效的數(shù)據(jù)查詢和計算服務(wù)支撐業(yè)務(wù)運(yùn)轉(zhuǎn)。然而企業(yè)現(xiàn)有的大數(shù)據(jù)引擎逐漸暴露出了即席查詢不夠敏捷、大數(shù)據(jù)量高并發(fā)響應(yīng)慢、固定報表運(yùn)算效率低下的性能缺陷。此外，多數(shù)據(jù)源存儲系統(tǒng)的分散獨(dú)立使得數(shù)據(jù)聯(lián)通查詢分析遇到困難。

針對現(xiàn)有數(shù)據(jù)分析引擎的性能缺陷和多數(shù)據(jù)源無法聯(lián)通的問題，分析型數(shù)據(jù)庫著重提升了即席查詢、大規(guī)模數(shù)據(jù)高并發(fā)查詢、固定報表運(yùn)算效率，并且提供聯(lián)邦的功能支持跨多數(shù)據(jù)源進(jìn)行查詢和分析，打破了企業(yè)數(shù)據(jù)孤島，釋放業(yè)務(wù)數(shù)據(jù)價值。

圖數(shù)據(jù)庫助力挖掘數(shù)據(jù)關(guān)聯(lián)關(guān)系

在進(jìn)行業(yè)務(wù)數(shù)據(jù)分析時，識別數(shù)據(jù)間的關(guān)聯(lián)并對其特點(diǎn)進(jìn)行研究是一項重要的工作，例如在社交網(wǎng)絡(luò)、金融風(fēng)控、營銷等場景都需要從海量數(shù)據(jù)中發(fā)掘出單體之間的隱藏關(guān)系。但由于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫對關(guān)聯(lián)關(guān)系的查詢能力有限，以及相關(guān)分析工具和解決方案的缺失，關(guān)聯(lián)關(guān)系的挖掘成為企業(yè)面臨的難題。

圖分析解決方案為了應(yīng)對企業(yè)在數(shù)據(jù)關(guān)系探索上的難題，利用圖數(shù)據(jù)庫的存儲和關(guān)系計算能力，支持用戶使用圖算法對海量數(shù)據(jù)進(jìn)行挖掘并對其關(guān)系特點(diǎn)進(jìn)行分析。此外，知識圖譜平臺具備圖譜構(gòu)建和知識推理計算能力，將圖的關(guān)聯(lián)關(guān)系轉(zhuǎn)化為知識，實現(xiàn)業(yè)務(wù)洞察。

超融合數(shù)據(jù)庫支撐企業(yè)多元化業(yè)務(wù)快速發(fā)展

中大型企業(yè)在復(fù)雜多樣的業(yè)務(wù)場景中沉淀了海量數(shù)據(jù)，而且由于業(yè)務(wù)持續(xù)擴(kuò)張增長的趨勢，企業(yè)需要不斷加強(qiáng)數(shù)字化基座的能力來匹配海量數(shù)據(jù)規(guī)模和業(yè)務(wù)發(fā)展速度。然而企業(yè)現(xiàn)有的的數(shù)據(jù)庫承載數(shù)據(jù)類型有限并且性能表現(xiàn)不足，難以滿足企業(yè)對數(shù)據(jù)庫服務(wù)的需求。

為了解決在業(yè)務(wù)快速發(fā)展過程中遇到的承載數(shù)據(jù)類型限制和性能表現(xiàn)欠佳的問題，超融合數(shù)據(jù)庫部署了針對不同數(shù)據(jù)類型的專有引擎，技術(shù)架構(gòu)的簡易化不會為企業(yè)增加過多的運(yùn)維管理成本。同時，超融合數(shù)據(jù)庫具備與常見的專用數(shù)據(jù)庫或大數(shù)據(jù)引擎同等或更好的性能表現(xiàn)。

1. 報告綜述

2. 分析型數(shù)據(jù)庫

3. 圖數(shù)據(jù)庫

4. 超融合數(shù)據(jù)庫

5. 結(jié)語

1. 報告綜述

作為承載各類數(shù)據(jù)存儲和處理需求的基礎(chǔ)設(shè)施，數(shù)據(jù)庫在企業(yè)數(shù)字化轉(zhuǎn)型的過程中起到了關(guān)鍵的支撐作用。但隨著近幾年產(chǎn)業(yè)數(shù)字化進(jìn)程的深入，數(shù)據(jù)庫的應(yīng)用場景比以往更多、更復(fù)雜，導(dǎo)致數(shù)據(jù)庫需要應(yīng)對以下幾點(diǎn)關(guān)鍵變化和挑戰(zhàn)。

首先，企業(yè)內(nèi)的數(shù)據(jù)規(guī)模在急劇增長。無論是企業(yè)尋求通過數(shù)字化轉(zhuǎn)型實現(xiàn)數(shù)據(jù)驅(qū)動業(yè)務(wù)決策，還是一些新興行業(yè)企業(yè)業(yè)務(wù)的快速擴(kuò)張，都讓企業(yè)的數(shù)據(jù)量從原先的幾十TB，迅速增長至幾百TB，甚至是PB級。然而傳統(tǒng)的數(shù)據(jù)庫在性能方面，很難應(yīng)對如此大規(guī)模數(shù)據(jù)量的查詢分析。

其次，企業(yè)需要存儲和處理的數(shù)據(jù)類型變得更多樣。關(guān)系型數(shù)據(jù)占主導(dǎo)地位的時代已經(jīng)過去，現(xiàn)在，企業(yè)在很多新興應(yīng)用場景中為了提高數(shù)據(jù)存儲和分析效率，采用了新的數(shù)據(jù)模型。例如，營銷、風(fēng)控中用于關(guān)聯(lián)關(guān)系分析的圖數(shù)據(jù)，制造業(yè)中用于記錄生產(chǎn)過程的時序數(shù)據(jù)，以及文檔、健值、GIS等各種數(shù)據(jù)模型。如何處理多種類型數(shù)據(jù)，成為企業(yè)在數(shù)據(jù)庫層面需要首先解決的問題。

最后，企業(yè)越來越需要數(shù)據(jù)庫具備場景化的解決方案。通常，企業(yè)已經(jīng)建有一定的數(shù)據(jù)基礎(chǔ)設(shè)施，且不同行業(yè)企業(yè)的數(shù)據(jù)應(yīng)用場景往往有一些特殊要求，為了減少數(shù)據(jù)遷移和加載，并加速數(shù)據(jù)分析，企業(yè)需要數(shù)據(jù)庫具備相應(yīng)場景化的功能和解決方案。例如，在大數(shù)據(jù)量固定報表場景，企業(yè)需要數(shù)據(jù)庫具備預(yù)計算能力;在企業(yè)有多套業(yè)務(wù)系統(tǒng)需要聯(lián)合分析的場景，企業(yè)需要數(shù)據(jù)庫具備聯(lián)邦查詢能力;在工業(yè)企業(yè)需要不斷收集數(shù)據(jù)做預(yù)測性維護(hù)的場景，企業(yè)需要數(shù)據(jù)庫具備庫內(nèi)機(jī)器學(xué)習(xí)的能力。

圖 1：數(shù)據(jù)庫應(yīng)用面臨的三大挑戰(zhàn)

面對這些變化和挑戰(zhàn)，數(shù)據(jù)庫業(yè)內(nèi)一直在升級或推出新的數(shù)據(jù)庫產(chǎn)品，以滿足企業(yè)的需求。為了提升數(shù)據(jù)庫性能，企業(yè)可以采用基于分布式、內(nèi)存存儲，以及多種技術(shù)優(yōu)化的新一代數(shù)據(jù)庫;為了處理多種類型數(shù)據(jù)，企業(yè)可以選擇各種專用數(shù)據(jù)庫，如圖數(shù)據(jù)庫、時序數(shù)據(jù)庫、搜索引擎等，而當(dāng)企業(yè)部署了多套數(shù)據(jù)庫系統(tǒng)，運(yùn)維難度大，且又需要做聯(lián)合分析時，在內(nèi)核層融合多類型數(shù)據(jù)處理能力的超融合數(shù)據(jù)庫，則是最佳選擇;為了實現(xiàn)場景解決方案，具備預(yù)計算、聯(lián)邦查詢、庫內(nèi)機(jī)器學(xué)習(xí)等其中一種或多種能力的數(shù)據(jù)庫，逐漸成為企業(yè)重點(diǎn)關(guān)注的因素。

為了幫助企業(yè)更好地理解如何應(yīng)用合適的數(shù)據(jù)庫解決企業(yè)面臨的這些普遍問題，本報告選取了分析型數(shù)據(jù)庫、圖數(shù)據(jù)庫和超融合數(shù)據(jù)庫市場的4個典型的數(shù)據(jù)庫應(yīng)用案例，對每個案例中的企業(yè)需求、解決方案和落地效果進(jìn)行詳細(xì)分析，并總結(jié)提煉案例背后體現(xiàn)的共性價值。

2. 分析型數(shù)據(jù)庫

2.1分析型數(shù)據(jù)庫多方位優(yōu)化性能，高效提供數(shù)據(jù)服務(wù)

在數(shù)字化轉(zhuǎn)型的驅(qū)動下，各行業(yè)均呈現(xiàn)出數(shù)據(jù)量爆發(fā)式增長、數(shù)據(jù)應(yīng)用場景多樣化拓展的趨勢。面對海量數(shù)據(jù)，如何從中發(fā)掘出有效信息來支持決策，成為企業(yè)業(yè)務(wù)運(yùn)轉(zhuǎn)和實現(xiàn)轉(zhuǎn)型增長的關(guān)鍵。分析型數(shù)據(jù)庫作為數(shù)據(jù)基礎(chǔ)設(shè)施的核心，不僅要為各系統(tǒng)輸送數(shù)據(jù)查詢和分析的能力，而且要保證自身服務(wù)的高效性來滿足及時用數(shù)的需求。

然而，在業(yè)務(wù)場景不斷拓展、數(shù)據(jù)規(guī)模持續(xù)增長的壓力下，企業(yè)傳統(tǒng)使用的查詢分析引擎性能表現(xiàn)嚴(yán)重不足，無法支持實時業(yè)務(wù)決策，具體表現(xiàn)在：

即席查詢不夠敏捷。在企業(yè)進(jìn)行決策時，數(shù)據(jù)分析作為了解業(yè)務(wù)運(yùn)轉(zhuǎn)情況的重要手段之一，需要通過多表關(guān)聯(lián)、自由組合查詢條件的方式對多維度指標(biāo)進(jìn)行上卷和下鉆探查。然而傳統(tǒng)的分析引擎在大數(shù)據(jù)量、復(fù)雜查詢的場景下逐漸無法適用，會出現(xiàn)響應(yīng)慢，甚至無法獲取查詢結(jié)果的問題，不能夠很好地支持?jǐn)?shù)據(jù)聚合計算、明細(xì)查詢等需求;

大數(shù)據(jù)量、高并發(fā)請求響應(yīng)慢。隨著數(shù)據(jù)查詢和分析的需求逐漸向業(yè)務(wù)端推進(jìn)，業(yè)務(wù)人員也常常需要進(jìn)行日常查詢操作來支撐實時決策。然而大型企業(yè)通常業(yè)務(wù)人員眾多，不免帶來同時間下多點(diǎn)并發(fā)查詢的請求，對數(shù)據(jù)庫造成性能壓力，引起響應(yīng)延時的問題;

固定報表運(yùn)算效率低下。除了自助分析之外，企業(yè)還需要通過固定報表了解關(guān)鍵指標(biāo)的動態(tài)和趨勢。固定報表通常由多個SQL組成，涉及數(shù)據(jù)量大且計算維度多，容易造成數(shù)據(jù)庫計算效率低下的問題。

針對現(xiàn)有數(shù)據(jù)庫在性能上的欠缺，分析型數(shù)據(jù)庫廠商著重提升了即席查詢、大規(guī)模數(shù)據(jù)高并發(fā)執(zhí)行、固定報表等方面的性能來滿足企業(yè)用數(shù)需求。具體從以下方面著手解決問題：

圖2: 優(yōu)化分析型數(shù)據(jù)庫性能加速服務(wù)響應(yīng)

優(yōu)化在大數(shù)據(jù)量、多表關(guān)聯(lián)復(fù)雜計算的能力。分析型數(shù)據(jù)庫通過具備高效數(shù)據(jù)存取的全內(nèi)存架構(gòu)、查詢索引優(yōu)化、多表連接優(yōu)化等手段提升數(shù)據(jù)吞吐量和查詢計算效率，減少業(yè)務(wù)決策的停頓等待時間;

提升數(shù)據(jù)吞吐量、任務(wù)執(zhí)行并發(fā)度。為了滿足大數(shù)據(jù)量、高并發(fā)的數(shù)據(jù)查詢請求，分析型數(shù)據(jù)庫通常采用分布式部署，利用大規(guī)模并行執(zhí)行架構(gòu)的優(yōu)勢，配合均衡分配節(jié)點(diǎn)負(fù)載等手段提升數(shù)據(jù)吞吐量，使數(shù) 據(jù)庫具備多任務(wù)并發(fā)能力;

引入預(yù)計算加速固定查詢。在固定報表的場景下，分析型數(shù)據(jù)庫可以引入預(yù)計算能力，利用構(gòu)建物化視圖的方式復(fù)用常見查詢，加速復(fù)雜SQL計算能力。

2.2高效聯(lián)通多數(shù)據(jù)系統(tǒng)，聯(lián)邦查詢跨源提供數(shù)據(jù)查詢

隨著數(shù)據(jù)來源的拓展，以及數(shù)據(jù)存儲系統(tǒng)相對獨(dú)立，企業(yè)難以將多數(shù)據(jù)源進(jìn)行打通，造成數(shù)據(jù)聯(lián)通查詢分析困難的問題。當(dāng)分析人員需要結(jié)合其他業(yè)務(wù)數(shù)據(jù)或站在全局視角進(jìn)行決策時，會遇到系統(tǒng)間數(shù)據(jù)流轉(zhuǎn)不暢、數(shù)據(jù)加工繁瑣、用數(shù)口徑不一致等問題，難以保證決策的準(zhǔn)確性。

此外，Hadoop大數(shù)據(jù)解決方案需要大量數(shù)據(jù)搬遷，將多源數(shù)據(jù)整合成內(nèi)表進(jìn)行統(tǒng)一查詢，企業(yè)在已經(jīng)具備成熟的大數(shù)據(jù)存儲引擎的情況下通常進(jìn)行大規(guī)模數(shù)據(jù)遷移的成本會很高。

圖3：聯(lián)邦功能跨多數(shù)據(jù)源查詢

針對企業(yè)多數(shù)據(jù)源的情況，一些分析型數(shù)據(jù)庫提供聯(lián)邦查詢的功能，支持查詢多源數(shù)據(jù)。外表聯(lián)邦查詢功能通過只保存表對應(yīng)的元數(shù)據(jù)，并直接向所在數(shù)據(jù)源發(fā)起查詢，避開了數(shù)據(jù)遷移工作，并且實現(xiàn)了數(shù)據(jù)層面的整合分析。

同時，外表聯(lián)邦查詢功能支持包括MySQL、Elasticsearch、Hive、Iceberg在內(nèi)的多個第三方數(shù)據(jù)源，并且可以滿足用戶對不同維度、不同層面聚合或明細(xì)查詢的多樣需求。

案例1：某國有商業(yè)銀行構(gòu)建實時交互式數(shù)據(jù)分析平臺，高效助力普惠金融業(yè)務(wù)

在銀行數(shù)字化轉(zhuǎn)型的過程中，客戶分析和精細(xì)化管理至關(guān)重要。在普惠金融業(yè)務(wù)中，如何對下沉的海量客戶建立數(shù)字普惠全景視圖，實現(xiàn)經(jīng)營狀況及資產(chǎn)質(zhì)量分析、客戶分析、產(chǎn)品分析、營銷分析等交互式數(shù)據(jù)分析能力，對于銀行普惠金融業(yè)務(wù)的開展起到了關(guān)鍵支撐作用。

某國有大型商業(yè)銀行充分利用征信、工商、納稅、電力、司法、結(jié)算、供應(yīng)鏈、政務(wù)、采購平臺、貸款信息等行內(nèi)外數(shù)據(jù)，將風(fēng)險指標(biāo)融入客戶多維畫像信息，建立普惠金融營銷、準(zhǔn)入、信用評價、授信、定價、貸后監(jiān)測預(yù)警、催收等分析模型，實現(xiàn)關(guān)鍵業(yè)務(wù)指標(biāo)實時報送，提供交互式數(shù)據(jù)分析。該平臺對底層數(shù)據(jù)基礎(chǔ)設(shè)施的實時性、高并發(fā)、穩(wěn)定性和可用性等能力都提出了更高的要求。具體而言，需要解決以下需求：

1)海量異構(gòu)數(shù)據(jù)的實時查詢。面對多樣復(fù)雜的客戶畫像數(shù)據(jù)，數(shù)據(jù)庫作為支撐業(yè)務(wù)用戶日常在線使用的系統(tǒng)，需要能夠執(zhí)行行內(nèi)超過200個以上標(biāo)簽動態(tài)組合以及5張表以上任意條件篩選和組合的復(fù)雜查詢，達(dá)到秒級響應(yīng)時間;

2)支撐高并發(fā)業(yè)務(wù)查詢場景。該銀行總共有5萬多位客戶經(jīng)理提供日常對公和對私的業(yè)務(wù)服務(wù)，會不免出現(xiàn)同時間下的多點(diǎn)數(shù)據(jù)查詢需求。因此，數(shù)據(jù)庫要能夠在高并發(fā)場景下及時響應(yīng)來滿足精準(zhǔn)營銷和信貸風(fēng)控的業(yè)務(wù)需要;

3)能夠穩(wěn)定可靠地對外提供數(shù)據(jù)服務(wù)，滿足系統(tǒng)可用性級別要求。金融行業(yè)對數(shù)據(jù)一致性、系統(tǒng)的RPO和RTO指標(biāo)、多數(shù)據(jù)中心等方面有嚴(yán)苛的要求，要保證數(shù)據(jù)不錯不漏、故障無損快速切換，提供多數(shù)據(jù)中心備災(zāi)措施等。

基于分布式全內(nèi)存數(shù)據(jù)庫RapidsDB構(gòu)建數(shù)據(jù)分析平臺

為了滿足以上性能及業(yè)務(wù)需求，該銀行將借助分布式內(nèi)存計算技術(shù)提升數(shù)據(jù)庫分析性能，作為重點(diǎn)考察方向。柏睿數(shù)據(jù)分布式全內(nèi)存數(shù)據(jù)庫RapidsDB在快速部署、集群彈性、性能線性擴(kuò)展、廣泛兼容、異構(gòu)數(shù)據(jù)支持、海量數(shù)據(jù)計算等多方面獲得行方的高度肯定，從而在行方同類數(shù)據(jù)庫產(chǎn)品選型中脫穎而出。

柏睿數(shù)據(jù)成立于 2014 年，是一家以數(shù)據(jù)庫為核心的“Data+AI〞數(shù)據(jù)智能基礎(chǔ)軟件公司，國內(nèi)首家因突破數(shù)據(jù)庫核心技術(shù)而獲得國家級專精特新“小巨人”稱號的民營企業(yè)。柏睿數(shù)據(jù)作為國內(nèi)掌握全內(nèi)存數(shù)據(jù)庫引擎關(guān)鍵專利的企業(yè)，基于完全自主研發(fā)的全內(nèi)存分布式數(shù)據(jù)庫產(chǎn)品體系和人工智能產(chǎn)品體系，打造軟硬一體化智能數(shù)據(jù)處理平臺，其產(chǎn)品在算力性能、智能化、安全性、標(biāo)準(zhǔn)化等關(guān)鍵技術(shù)指標(biāo)上均業(yè)界領(lǐng)先，已為金融、政務(wù)、能源、通信、醫(yī)療等眾多行業(yè)標(biāo)桿客戶提供原創(chuàng)性數(shù)字化轉(zhuǎn)型技術(shù)產(chǎn)品服務(wù)。

圖4: 基于分布式全內(nèi)存數(shù)據(jù)庫RapidsDB構(gòu)建的實時交互式數(shù)據(jù)分析平臺

柏睿分布式全內(nèi)存數(shù)據(jù)庫RapidsDB在該行的普惠金融業(yè)務(wù)場景中代替了原有的“Oracle + ElasticSearch”復(fù)雜技術(shù)棧，實現(xiàn)極速性能提升，而且保證了金融級別的穩(wěn)定可靠和高可用性。

為了解決海量用戶數(shù)據(jù)實時查詢的性能問題，RapidsDB采用全內(nèi)存架構(gòu)避開了磁盤訪問I/O，達(dá)到更快的查詢速度;在多表關(guān)聯(lián)場景下，柏睿通過動態(tài)查詢優(yōu)化、索引使用優(yōu)化、join連接優(yōu)化實現(xiàn)了多表關(guān)聯(lián)場景中更強(qiáng)的性能表現(xiàn)，達(dá)到復(fù)雜查詢的即時響應(yīng)能力。

為了支撐上萬名業(yè)務(wù)經(jīng)理高并發(fā)的查詢需求。RapidsDB采用分布式架構(gòu)，通過動態(tài)擴(kuò)展應(yīng)對任務(wù)執(zhí)行量的增長，并且配合查詢優(yōu)化器均衡分配節(jié)點(diǎn)負(fù)載。同時，RapidsDB通過數(shù)據(jù)結(jié)構(gòu)無鎖化實現(xiàn)了最大程度的并發(fā)能力。

針對金融級數(shù)據(jù)可靠性和可用性的要求，首先，RapidsDB在內(nèi)存存儲之外還通過事務(wù)日志和定期快照不斷地將數(shù)據(jù)備份到磁盤，實現(xiàn)數(shù)據(jù)庫內(nèi)存與持久化存儲，如Flash、SSD、HD等，協(xié)同工作來確保數(shù)據(jù)無丟失風(fēng)險。其次，在集群內(nèi)部可用性方面，數(shù)據(jù)節(jié)點(diǎn)通過成對的配置在彼此之間共享數(shù)據(jù)副本，保持?jǐn)?shù)據(jù)實時同步。主備節(jié)點(diǎn)均可對外提供服務(wù)，如果出現(xiàn)任何葉的故障，RapidsDB將自動切換副本分區(qū)。在節(jié)點(diǎn)出現(xiàn)故障的情況下，RapidsDB通過將適當(dāng)?shù)母北痉謪^(qū)升級為主分區(qū)來轉(zhuǎn)移節(jié)點(diǎn)故障，以便數(shù)據(jù)庫保持在線。在滿足集群內(nèi)高可用的基礎(chǔ)上，RapidsDB還實現(xiàn)了跨機(jī)房數(shù)據(jù)和系統(tǒng)服務(wù)的高可用，支持“同城雙中心”、“兩地三中心”、“三地五中心”等金融級別的災(zāi)備方案，在系統(tǒng)本身發(fā)生故障、應(yīng)用層報錯、網(wǎng)絡(luò)錯誤、人為錯誤等情形下，數(shù)據(jù)庫系統(tǒng)均能保障良好的高可用性。

基于RapidsDB數(shù)據(jù)庫的數(shù)據(jù)分析平臺落地后的價值與效果

第一，通過RapidsDB在大規(guī)模異構(gòu)數(shù)據(jù)場景下的高性能表現(xiàn)，滿足了該銀行對多表關(guān)聯(lián)復(fù)雜查詢的需求。實現(xiàn)了1100億行數(shù)據(jù)、40TB大數(shù)據(jù)量下的實時查詢，支持前端SQL條件靈活組合、最多15個表join的多表復(fù)雜查詢。

第二， RapidsDB支撐了全銀行5萬名客戶經(jīng)理的日常查詢服務(wù)，具備典型情況下上百個并發(fā)查詢和極端情況下4000多個并發(fā)查詢的能力，能夠充分應(yīng)對業(yè)務(wù)多點(diǎn)并發(fā)的讀取請求，達(dá)到平均3.6秒的響應(yīng)時間。

第三， RapidsDB能夠穩(wěn)定可靠地運(yùn)行，提供99.999%高可用的數(shù)據(jù)服務(wù)，滿足金融行業(yè)對數(shù)據(jù)庫的嚴(yán)苛要求，有效支撐了該銀行普惠金融業(yè)務(wù)的快速發(fā)展。

項目經(jīng)驗總結(jié)

該銀行的數(shù)據(jù)分析平臺成功上線以來，柏睿數(shù)據(jù)RapidsDB分布式全內(nèi)存數(shù)據(jù)庫展現(xiàn)了出色的性能和穩(wěn)定性來支撐該銀行普惠金融業(yè)務(wù)的轉(zhuǎn)型升級。該項目的成功落地為同類型業(yè)務(wù)或者相似規(guī)模的企業(yè)提供了以下分析型數(shù)據(jù)庫的使用建議：

1)在類似普惠金融擁有海量多元化數(shù)據(jù)沉淀，并且要求高實時性查詢的業(yè)務(wù)場景中，全內(nèi)存數(shù)據(jù)庫因為運(yùn)行時不需要將數(shù)據(jù)同步到物理磁盤，從而避免了磁盤I/O限制對系統(tǒng)性能的影響并且減少了系統(tǒng)維護(hù)的工作量，所以被該類型業(yè)務(wù)場景所青睞。因此，對于數(shù)據(jù)存取效率要求較高的系統(tǒng)，全內(nèi)存數(shù)據(jù)庫可以比主要利用磁盤存取的數(shù)據(jù)庫發(fā)揮更大的性能作用。

2)在類似國有銀行員工數(shù)量眾多、內(nèi)部組織架構(gòu)復(fù)雜的大型企業(yè)中，通常有大量業(yè)務(wù)人員同時進(jìn)行日常查詢操作來保證業(yè)務(wù)正常運(yùn)轉(zhuǎn)。因此，分析型數(shù)據(jù)庫需要具備分布式相關(guān)技術(shù)，通過動態(tài)擴(kuò)展和平衡分配任務(wù)量支持多點(diǎn)并發(fā)的任務(wù)請求，保證同一時間下查詢的及時響應(yīng)。

案例2：中信建投基于分析型數(shù)據(jù)庫構(gòu)建統(tǒng)一查詢服務(wù)平臺，滿足企業(yè)大規(guī)模用數(shù)需求

中信建投證券(簡稱“中信建投”)是經(jīng)中國證監(jiān)會批準(zhǔn)設(shè)立的全國性大型綜合證券公司，其在企業(yè)融資、收購兼并、證券經(jīng)紀(jì)、資產(chǎn)管理、股票及衍生品交易等領(lǐng)域形成了自身特色和核心業(yè)務(wù)優(yōu)勢，并搭建了研究咨詢、信息技術(shù)、運(yùn)營管理、風(fēng)險管理、合規(guī)管理等專業(yè)高效的業(yè)務(wù)支持體系。目前，中信建投擁有超過1,000萬證券經(jīng)紀(jì)業(yè)務(wù)客戶，托管證券市值超過5.5萬億元，位居行業(yè)第2名。

近年來，在證券服務(wù)逐漸互聯(lián)網(wǎng)化，以及券商牌照紅利逐漸消退的行業(yè)背景下，中信建投不斷加大對數(shù)字化的投入，尤其重視數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)，期望在客戶服務(wù)、經(jīng)營管理等多方面由經(jīng)驗依賴向數(shù)據(jù)驅(qū)動轉(zhuǎn)變，從而提高服務(wù)水平和決策效率。因此，在公司總部和各分支機(jī)構(gòu)，包括經(jīng)紀(jì)、資管、投行等業(yè)務(wù)部門，以及稽核、審計、財務(wù)、法務(wù)等職能部門，對自助分析、多維分析、固定報表和API數(shù)據(jù)服務(wù)等形式的用數(shù)需求一直在不斷增長。

為了推動整體數(shù)字化建設(shè)和數(shù)據(jù)治理工作，中信建投已經(jīng)在2019年搭建了基于Hadoop體系的數(shù)據(jù)湖，將大量歷史數(shù)據(jù)遷移到Hadoop上，用Hive對數(shù)據(jù)進(jìn)行加工處理，所有的查詢計算都通過Presto執(zhí)行。但是，該方案在最近兩年數(shù)據(jù)量快速增長、業(yè)務(wù)場景多樣化發(fā)展的趨勢下逐漸無法適用。具體而言，中信建投目前在數(shù)據(jù)查詢分析中主要存在以下痛點(diǎn)和需求：

1) 數(shù)據(jù)加工鏈路復(fù)雜。在數(shù)據(jù)分析的流程上，數(shù)據(jù)部門通常是首先用presto做即席查詢，再通過Hive進(jìn)行數(shù)據(jù)加工，最后將加工過后的數(shù)據(jù)下發(fā)到各部門的Oracle或MySQL事務(wù)型數(shù)據(jù)庫，業(yè)務(wù)人員在事務(wù)數(shù)據(jù)庫里對下發(fā)數(shù)據(jù)進(jìn)行查詢和分析。整個過程需要在三套系統(tǒng)之間進(jìn)行數(shù)據(jù)交換，且三套系統(tǒng)使用的SQL語法也不一致，需要不同人員進(jìn)行開發(fā)維護(hù)，從而產(chǎn)生了多種問題：

數(shù)據(jù)開發(fā)和維護(hù)成本高;

數(shù)據(jù)口徑可能不一致，導(dǎo)致數(shù)據(jù)應(yīng)用結(jié)果不準(zhǔn)確;

用數(shù)需求難以得到及時滿足，通常要“T+1”才能給到數(shù)據(jù)報表。

2) 大數(shù)據(jù)量下性能不足，查詢響應(yīng)慢。中信建投目前大部分的數(shù)據(jù)都存儲在Hive中，業(yè)務(wù)部門在進(jìn)行自助分析時通常涉及的相關(guān)數(shù)據(jù)量較大，而Presto在大數(shù)據(jù)量、多表關(guān)聯(lián)查詢時會出現(xiàn)響應(yīng)比較慢，甚至無法獲得查詢結(jié)果的問題，無法滿足單表及多表復(fù)雜查詢場景下響應(yīng)的及時性。此外，Presto因為資源隔離不足會出現(xiàn)應(yīng)用搶占資源的情況，不能很好支持高并發(fā)的查詢請求。

3) 大量實時數(shù)據(jù)分散在各個業(yè)務(wù)系統(tǒng)，無法進(jìn)行聯(lián)合分析。由于中信建投內(nèi)部存在非常多的業(yè)務(wù)系統(tǒng)，各業(yè)務(wù)系統(tǒng)相互獨(dú)立且數(shù)據(jù)會不斷更新，而這些實時數(shù)據(jù)無法更新到Hive中，導(dǎo)致業(yè)務(wù)數(shù)據(jù)之間不能及時打通進(jìn)行聯(lián)合分析。

4) 缺少預(yù)計算能力加速固定查詢。固定報表和API數(shù)據(jù)服務(wù)為各業(yè)務(wù)提供包括數(shù)據(jù)匯總結(jié)果、明細(xì)查詢、數(shù)據(jù)接口在內(nèi)的多項能力，而基于固定數(shù)據(jù)查詢的可視化報表通常數(shù)據(jù)查詢量大、計算維度較多，一個看板頁面涉及大約一兩百個SQL語句，整體運(yùn)算效率低下。針對這種情況，中信建投希望通過預(yù)計算實現(xiàn)查詢加速，并且要求開發(fā)工作輕量化且資源消耗較低。

引入StarRocks構(gòu)建統(tǒng)一查詢服務(wù)平臺

通過綜合對比數(shù)據(jù)庫即席查詢、實時分析性能、預(yù)計算能力、數(shù)據(jù)聯(lián)邦技術(shù)，并且結(jié)合中信建投已經(jīng)在Hadoop體系中有大量投入，不希望做大規(guī)模數(shù)據(jù)搬遷的具體情況，將Hive外表查詢支持、SQL語法及函數(shù)的兼容性等方面納入選型考慮，中信建投最終選擇引入StarRocks來構(gòu)建統(tǒng)一的查詢服務(wù)平臺，滿足各部門的用數(shù)需求。

StarRocks是數(shù)據(jù)分析新范式的開創(chuàng)者、新標(biāo)準(zhǔn)的領(lǐng)導(dǎo)者。面世三年來，StarRocks 一直專注打造世界頂級的新一代極速全場景 MPP 數(shù)據(jù)庫，幫助企業(yè)構(gòu)建極速統(tǒng)一的湖倉新范式，是實現(xiàn)數(shù)字化轉(zhuǎn)型和降本增效的關(guān)鍵基礎(chǔ)設(shè)施。當(dāng)前全球超過 200 家市值 70 億元以上的頭部企業(yè)都在基于 StarRocks 構(gòu)建新一代數(shù)據(jù)分析能力，包括騰訊、攜程、平安銀行、中原銀行、中信建投、招商證券、眾安保險、大潤發(fā)、百草味、順豐、京東物流、TCL、OPPO 等，并與全球云計算領(lǐng)導(dǎo)者亞馬遜云、阿里云、騰訊云等達(dá)成戰(zhàn)略合作。項目在 GitHub 星數(shù)已超 3700 個，成為年度開源熱力值增速第一的項目，市場滲透率躋身中國前十名。

圖5：中信建投統(tǒng)一數(shù)據(jù)查詢服務(wù)平臺

作為一款高性能全場景的分析型數(shù)據(jù)庫，StarRocks使用MPP 架構(gòu)、可實時更新的列式存儲引擎等技術(shù)實現(xiàn)多維、實時、高并發(fā)的數(shù)據(jù)分析。StarRocks 既支持從各類實時和離線的外部數(shù)據(jù)源高效導(dǎo)入數(shù)據(jù)，也支持直接分析數(shù)據(jù)湖上各種格式的數(shù)據(jù)，統(tǒng)一的SQL交互將數(shù)據(jù)分析結(jié)果或物化視圖預(yù)計算結(jié)果分發(fā)到各個數(shù)據(jù)應(yīng)用，為中信建投實現(xiàn)了三套系統(tǒng)使用功能的整合以及數(shù)據(jù)應(yīng)用流程的簡化。

具體而言，針對中信建投的痛點(diǎn)問題，StarRocks具備如下優(yōu)勢：

1)在性能方面，針對大規(guī)模數(shù)據(jù)下自助BI敏捷高效的需求。StarRocks向量化執(zhí)行引擎，全面實現(xiàn)了SIMD指令，保證查詢和向量化導(dǎo)入可以充分利用單機(jī)單核CPU的處理能力;StarRocks自研的Pipeline協(xié)程引擎，使得StarRocks可以應(yīng)對更高的并發(fā)查詢，充分利用單機(jī)多核CPU的處理能力，與此同時可以更優(yōu)雅的進(jìn)行CPU時間分片調(diào)度從而實現(xiàn)資源隔離的功能;StarRocks采用大規(guī)模并行處理(MPP)架構(gòu)，可以充分利用多機(jī)多核的集群資源，保證查詢性能可以線性擴(kuò)展;并用基于成本的優(yōu)化器CBO、RuntimeFilter、延遲物化、全局低基數(shù)字典等多種？段實現(xiàn)極致查詢性能。

2)在外部表聯(lián)邦查詢方面，StarRocks可通過創(chuàng)建外部表的？式，在 StarRocks 讀取其他數(shù)據(jù)源，如MySQL、Elasticsearch、Hive等外部表中的數(shù)據(jù)，從？打破數(shù)據(jù)的隔離。以Hive外表功能為例，中信建投可以將其Hive中的離線數(shù)據(jù)導(dǎo)？ StarRocks 中進(jìn)？？性能分析查詢。同時，StarRocks 也可以扮演數(shù)據(jù)湖的？？，將離線數(shù)據(jù)與實時數(shù)據(jù)進(jìn)？關(guān)聯(lián)，打通不同數(shù)據(jù)存儲間的壁壘，從？？撐業(yè)務(wù)分析時在數(shù)據(jù)湖中進(jìn)？數(shù)據(jù)探查和極致分析的需求。

3)在預(yù)計算方面，為了實現(xiàn)固定報表的加速，StarRocks引入預(yù)計算的手段，通過創(chuàng)建多表、外表物化視圖的方式對明細(xì)數(shù)據(jù)進(jìn)行上卷和下鉆，復(fù)用常見查詢有效優(yōu)化了復(fù)雜SQL計算效率，滿足用戶對固定維度聚合分析以及原始明細(xì)數(shù)據(jù)任意維度分析的多樣需求。

中信建投統(tǒng)一查詢服務(wù)平臺落地后的效果與價值

第一，大數(shù)據(jù)查詢性能得到顯著提升。采用StarRocks內(nèi)部表加速明細(xì)數(shù)據(jù)關(guān)聯(lián)查詢，實現(xiàn)了上億級別數(shù)據(jù)量大表關(guān)聯(lián)秒級響應(yīng)，內(nèi)表查詢效率提升10倍以上，外表查詢效率提升1倍以上，完全滿足大數(shù)據(jù)量下查詢分析及時響應(yīng)的需求;

第二，預(yù)計算能力降低了固定報表加工成本。采用StarRocks預(yù)計算能力可以將固定報表和API數(shù)據(jù)服務(wù)響應(yīng)速度提升1倍以上。多表物化視圖、外表物化視圖、QueryRewrite等高階功能，可以有效降低數(shù)據(jù)建模成本，使得“直面分析，按需加速”成為可能。

第三，降低數(shù)據(jù)遷移成本，提升數(shù)據(jù)管理和使用效率。StarRocks基于Hive外表做查詢，減少了元數(shù)據(jù)和底層數(shù)據(jù)的遷移成本，并實現(xiàn)了實時數(shù)據(jù)聯(lián)通分析。同時，以StarRocks為統(tǒng)一數(shù)據(jù)服務(wù)入口，降低了整體數(shù)據(jù)查詢和加工的復(fù)雜度，提升了數(shù)據(jù)管理和使用效率。

項目經(jīng)驗總結(jié)

中信建投進(jìn)行數(shù)字化轉(zhuǎn)型過程中已經(jīng)部署了大部分的數(shù)據(jù)基礎(chǔ)設(shè)施，但是已有的基于Hadoop構(gòu)建數(shù)據(jù)湖的體系在近兩年來暴露出眾多問題，已經(jīng)無法匹配業(yè)務(wù)的發(fā)展速度。中信建投基于自身業(yè)務(wù)需求和已有技術(shù)架構(gòu)情況選擇以StarRocks構(gòu)建統(tǒng)一數(shù)據(jù)服務(wù)入口的實踐，為同類型券商企業(yè)提供了以下經(jīng)驗建議：

1) 分析型數(shù)據(jù)庫的選型需要充分考慮企業(yè)自身的用數(shù)需求，以及現(xiàn)有數(shù)據(jù)平臺的技術(shù)架構(gòu)，選擇符合自身實際情況的數(shù)據(jù)庫是獲得較好的落地效果的關(guān)鍵。例如，中信建投大部分的數(shù)據(jù)都存儲在Hive中，StarRocks提供的類Presto的外表查詢功能可以避免數(shù)據(jù)遷移增加的額外成本，同時也很好地滿足了公司的用數(shù)需求。

2) 隨著企業(yè)數(shù)據(jù)庫規(guī)模不斷增長，以及分析場景更加復(fù)雜，分析型數(shù)據(jù)庫需要不斷提升數(shù)據(jù)查詢分析的性能，以及針對固定報表、自助BI等各種應(yīng)用場景，提供場景化解決方案、生態(tài)工具，才能滿足用戶在數(shù)據(jù)查詢分析方面功能和性能的復(fù)雜需求。

3. 圖數(shù)據(jù)庫

3.1傳統(tǒng)數(shù)據(jù)庫關(guān)系查詢能力不足，圖數(shù)據(jù)庫及相關(guān)解決方案加速業(yè)務(wù)洞察

在各行各業(yè)中都存在著諸多依賴個體屬性及其之間關(guān)聯(lián)信息的場景，例如社交網(wǎng)絡(luò)、金融風(fēng)控、營銷等，需要對單體之間的關(guān)系進(jìn)行識別，并對其特點(diǎn)進(jìn)行研究。然而，要在海量的數(shù)據(jù)中，發(fā)掘個體之間隱藏的聯(lián)系，是項很復(fù)雜工作，這為企業(yè)帶來了新的挑戰(zhàn)。具體而言，企業(yè)在關(guān)聯(lián)關(guān)系的探索上，存在以下難點(diǎn)或需求：

傳統(tǒng)的關(guān)系型數(shù)據(jù)庫對數(shù)據(jù)關(guān)聯(lián)關(guān)系查詢的支持有限。對于一些簡單的關(guān)聯(lián)關(guān)系查詢，企業(yè)通?？梢圆捎脗鹘y(tǒng)的關(guān)系型數(shù)據(jù)庫解決，但關(guān)系型數(shù)據(jù)庫在進(jìn)行關(guān)聯(lián)信息檢索時需要執(zhí)行多個表的連接操作，在數(shù)據(jù)關(guān)系較復(fù)雜時，會出現(xiàn)操作繁瑣，且性能嚴(yán)重不足，導(dǎo)致無法查詢結(jié)果的問題。因此，關(guān)系型數(shù)據(jù)庫在實際應(yīng)用中只能執(zhí)行一二度簡單關(guān)系的查詢，而不具備復(fù)雜關(guān)系查詢的能力。

企業(yè)缺少相關(guān)分析工具和解決方案來對關(guān)聯(lián)數(shù)據(jù)進(jìn)行挖掘分析。在具體應(yīng)用場景中，關(guān)聯(lián)關(guān)系的查詢分析，除了需要底層數(shù)據(jù)庫引擎的支撐，通常還需要結(jié)合領(lǐng)域知識，將關(guān)聯(lián)關(guān)系轉(zhuǎn)換為知識見解，幫助業(yè)務(wù)決策。此外，對于一些復(fù)雜的查詢分析，還需要一些AI算法來加速獲取結(jié)果。

為了解決企業(yè)在數(shù)據(jù)關(guān)系探索上的難題，針對數(shù)據(jù)關(guān)系進(jìn)行高效存儲和計算的圖數(shù)據(jù)庫獲得了企業(yè)的青睞。作為典型的非結(jié)構(gòu)化數(shù)據(jù)解決方案，圖數(shù)據(jù)庫將關(guān)聯(lián)數(shù)據(jù)的實體作為頂點(diǎn)存儲，關(guān)系作為邊存儲，突破了數(shù)據(jù)復(fù)雜關(guān)聯(lián)存儲查詢造成的性能瓶頸。同時，知識圖譜，以及圖分析算法也為圖數(shù)據(jù)的挖掘分析起到關(guān)鍵作用。圖數(shù)據(jù)庫及相關(guān)的解決方案具體包括如下三方面的內(nèi)容：

圖6：圖分析解決方案賦能數(shù)據(jù)關(guān)系洞察

高性能圖數(shù)據(jù)存儲與處理引擎。圖數(shù)據(jù)庫以圖模型存儲數(shù)據(jù)，最大能高效地存儲萬億點(diǎn)邊的數(shù)據(jù)，有效承載了企業(yè)沉淀的海量關(guān)系信息。借助優(yōu)秀的關(guān)系傳導(dǎo)能力，圖數(shù)據(jù)庫能夠?qū)崿F(xiàn)高效的多跳查詢，以此發(fā)掘關(guān)系型數(shù)據(jù)庫無法發(fā)現(xiàn)的深度關(guān)系;

圖算法支持高效的數(shù)據(jù)關(guān)系挖掘。借助圖算法，用戶能夠?qū)崿F(xiàn)海量數(shù)據(jù)挖掘和復(fù)雜關(guān)系分析，例如最短路徑，社交網(wǎng)絡(luò)中心性、社區(qū)檢測、社群特征、相似性和分類等常用的圖算法，能夠幫助用戶在紛繁復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)有價值的信息，輔助進(jìn)行業(yè)務(wù)決策;

知識圖譜平臺支持場景應(yīng)用。為了賦能業(yè)務(wù)場景，企業(yè)在具備圖數(shù)據(jù)庫引擎的基礎(chǔ)上，還需要構(gòu)建知識圖譜平臺，將圖的關(guān)聯(lián)關(guān)系轉(zhuǎn)化為知識，從而形成業(yè)務(wù)洞察。通常，知識圖譜平臺需要具備兩大關(guān)鍵的能力：1)知識圖譜構(gòu)建，即利用圖譜構(gòu)建工具，實現(xiàn)知識抽取、知識表示和知識融合，從而構(gòu)建知識圖譜;2)知識推理計算，即通過推理計算引擎，結(jié)合行業(yè)知識，發(fā)現(xiàn)知識中的顯性或隱性關(guān)系。

案例3：民生銀行基于圖數(shù)據(jù)庫構(gòu)建知識圖譜應(yīng)用平臺，通過圖分析盤活數(shù)據(jù)資產(chǎn)

作為頭部股份制商業(yè)銀行，民生銀行始終堅定踐行“民營企業(yè)的銀行、敏捷開放的銀行、用心服務(wù)的銀行”的戰(zhàn)略定位，高度重視數(shù)字化轉(zhuǎn)型，主動融入數(shù)字中國建設(shè)，著力在“生態(tài)銀行”和“智慧銀行”兩大領(lǐng)域?qū)崿F(xiàn)突破和提升，致力于為客戶提供專業(yè)特色的現(xiàn)代金融服務(wù)。

隨著金融行業(yè)數(shù)智轉(zhuǎn)型的進(jìn)程加快，銀行業(yè)務(wù)數(shù)據(jù)量出現(xiàn)爆炸式增長，對金融行業(yè)的數(shù)據(jù)處理能力提出了更高要求。同時，面向海量數(shù)據(jù)的充分沉淀，挖掘數(shù)據(jù)資產(chǎn)的潛在價值，釋放蘊(yùn)藏在數(shù)據(jù)要素中的生產(chǎn)力變得至關(guān)重要。對于民生銀行而言，全行業(yè)務(wù)場景眾多，由此積累了規(guī)模龐大的賬戶數(shù)據(jù)，也帶來了豐富的用戶關(guān)系信息。在此基礎(chǔ)上，如何選擇新的數(shù)據(jù)庫進(jìn)行技術(shù)革新，賦能業(yè)務(wù)實現(xiàn)數(shù)據(jù)驅(qū)動的決策，成為民生銀行內(nèi)部一項重要的發(fā)展課題。具體而言，民生銀行需要采用新的數(shù)據(jù)技術(shù)解決以下難題：

1) 對大規(guī)模的業(yè)務(wù)數(shù)據(jù)進(jìn)行高效的關(guān)聯(lián)關(guān)系分析與挖掘。風(fēng)險控制和營銷作為銀行兩大重要業(yè)務(wù)發(fā)展手段，需要對海量用戶數(shù)據(jù)進(jìn)行深度關(guān)聯(lián)關(guān)系挖掘，以識別潛在風(fēng)險、了解客戶偏好。在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中，數(shù)據(jù)被存儲在二維表中，使用關(guān)系模型檢索需要執(zhí)行多個表的連接操作，在深度關(guān)系挖掘能力與數(shù)據(jù)處理性能上表現(xiàn)嚴(yán)重不足;

2) 對行內(nèi)數(shù)據(jù)拉通整合，進(jìn)行統(tǒng)一的查詢分析。民生銀行內(nèi)部各個業(yè)務(wù)系統(tǒng)較為多元，但是未在數(shù)據(jù)層面打通，各個業(yè)務(wù)之間相對獨(dú)立，并未建立關(guān)聯(lián)關(guān)系。此外，業(yè)務(wù)人員缺少統(tǒng)一的應(yīng)用平臺對多元化的業(yè)務(wù)進(jìn)行全局聯(lián)通分析，數(shù)據(jù)管理分散，無法站在全局的視野分析業(yè)務(wù)變化，進(jìn)行實時決策;

3) 底層數(shù)據(jù)基礎(chǔ)設(shè)施的研發(fā)難度和成本較大，需要在解決技術(shù)難題的基礎(chǔ)上滿足大型企業(yè)要求的高可用、多租戶、權(quán)限管理等能力需求。此外，隨著國家信創(chuàng)政策日益嚴(yán)格，金融業(yè)作為國家經(jīng)濟(jì)命脈，必須充分實現(xiàn)關(guān)鍵數(shù)據(jù)基礎(chǔ)設(shè)施的國產(chǎn)化，具備數(shù)據(jù)庫系統(tǒng)的安全可控性，保障信息安全。

基于Galaxybase圖數(shù)據(jù)庫構(gòu)建知識圖譜應(yīng)用平臺，賦能銀行業(yè)務(wù)升級

數(shù)字化轉(zhuǎn)型需求驅(qū)動下，民生銀行需要挖掘數(shù)據(jù)關(guān)聯(lián)關(guān)系，發(fā)揮數(shù)字資產(chǎn)價值，更好地提升風(fēng)控、營銷等核心業(yè)務(wù)能力。因此民生銀行決定通過招標(biāo)建設(shè)知識圖譜應(yīng)用平臺，通過綜合考慮大規(guī)模的關(guān)聯(lián)關(guān)系查詢、多元化數(shù)據(jù)拉通整合、底層技術(shù)自主可控以及廠商技術(shù)領(lǐng)先性和實踐經(jīng)驗等因素，最終創(chuàng)鄰科技從眾多圖數(shù)據(jù)庫廠商中脫穎而出。

創(chuàng)鄰科技是國內(nèi)領(lǐng)先的商業(yè)化高性能分布式圖數(shù)據(jù)庫供應(yīng)商，在分布式數(shù)據(jù)存儲、大數(shù)據(jù)并行處理、圖挖掘等領(lǐng)域有業(yè)界領(lǐng)先的技術(shù)儲備。創(chuàng)鄰科技聚焦金融板塊，目前已成功服務(wù)五大行、頭部股份制銀行以及城商行、農(nóng)商行等企業(yè)用戶，核心產(chǎn)品Galaxybase國產(chǎn)高性能圖平臺已累計支持?jǐn)?shù)萬億點(diǎn)邊的大型金融圖譜應(yīng)用，性能國際領(lǐng)先。

圖7：基于Galaxybase圖數(shù)據(jù)庫構(gòu)建的“萬象”知識圖譜應(yīng)用平臺

在創(chuàng)鄰科技的幫助下，民生銀行以大數(shù)據(jù)、人工智能技術(shù)為基礎(chǔ)，引入Galaxybase圖數(shù)據(jù)庫構(gòu)建“萬象”知識圖譜應(yīng)用平臺，提供信息展示和交互式分析，具備本體建模、圖譜構(gòu)建、圖譜挖掘、知識服務(wù)的一站式全流程應(yīng)用能力，助力民生銀行業(yè)務(wù)升級。具體而言，基于Galaxybase圖數(shù)據(jù)庫的“萬象”知識圖譜應(yīng)用平臺使民生銀行具備了以下能力：

1)借助Galaxybase圖數(shù)據(jù)庫的圖譜可視化和關(guān)系挖掘能力，民生銀行能夠基于圖譜對各類信息拉通聚合，進(jìn)行關(guān)聯(lián)關(guān)系挖掘，提供信息展示和交互式分析功能。以構(gòu)建企業(yè)全息圖譜為例，通過引入行外的全量工商、司法、知識產(chǎn)權(quán)等復(fù)雜數(shù)據(jù)且對企業(yè)的多重關(guān)系進(jìn)行分析和挖掘，能夠?qū)崿F(xiàn)關(guān)聯(lián)信息的高效聚合，直觀呈現(xiàn)復(fù)雜客戶關(guān)系網(wǎng)絡(luò)，簡化業(yè)務(wù)分析難度。

2)圖技術(shù)的形態(tài)識別和關(guān)系傳導(dǎo)能力可以在反欺詐業(yè)務(wù)中發(fā)揮重要作用，依托Galaxybase圖數(shù)據(jù)庫所具備的實時數(shù)據(jù)處理與圖構(gòu)建能力，“萬象”知識圖譜平臺能對信貸申請件數(shù)據(jù)進(jìn)行實時組網(wǎng)，通過設(shè)備信息、地理位置信息、黑樣本、轉(zhuǎn)賬等關(guān)聯(lián)關(guān)系識別定位欺詐團(tuán)伙，并且結(jié)合傳統(tǒng)欺詐特征和網(wǎng)絡(luò)特征進(jìn)行機(jī)器學(xué)習(xí)對申請條件評分，有效識別欺詐申請，進(jìn)行及時預(yù)警，實時攔截欺詐風(fēng)險，避免欺詐損失。

3)基于圖神經(jīng)網(wǎng)絡(luò)的知識推理，“萬象”知識圖譜平臺能夠提升銀行的營銷能力。通過對涵蓋個人客戶的銀行客群建立經(jīng)營分析圖譜，“萬象”知識圖譜平臺可以基于用戶關(guān)系鏈進(jìn)行社群關(guān)系推理，利用種子賬戶所在社群觸達(dá)全新用戶并實現(xiàn)拉新，由社群觸達(dá)的新成員，還能夠以不同的速度、方式和幅度進(jìn)行裂變傳播，有效解決傳統(tǒng)客戶管理系統(tǒng)獲客難的問題，達(dá)成“快速實現(xiàn)賬戶增長，低成本輕松獲客”的目標(biāo)。

為了滿足數(shù)據(jù)聯(lián)通整合的需求，民生銀行基于Galaxybase圖數(shù)據(jù)庫對行內(nèi)外跨部門、跨產(chǎn)品、跨業(yè)務(wù)線中的實體及元數(shù)據(jù)信息進(jìn)行了整合。同時，平臺配備可視化圖分析平臺，業(yè)務(wù)人員無需編程技能即可通過可視化圖形配置界面構(gòu)建知識圖譜、部署圖算法、執(zhí)行計算并展示結(jié)果。

此外，Galaxybase圖數(shù)據(jù)庫具備企業(yè)級特性，通過主備集群能力支持?jǐn)?shù)據(jù)庫高可用，并且提供企業(yè)級的運(yùn)維管理和安全監(jiān)控能力，支持點(diǎn)邊類型和屬性的細(xì)粒度權(quán)限管理。在信創(chuàng)方面，Galaxybase圖數(shù)據(jù)庫為國產(chǎn)自研產(chǎn)品，能夠滿足金融行業(yè)對數(shù)據(jù)技術(shù)安全自主可控的要求。

“萬象”知識圖譜平臺落地后的效果與價值

第一，打破數(shù)據(jù)孤島，支撐海量數(shù)據(jù)的實時分析與關(guān)聯(lián)價值挖掘。通過構(gòu)建“萬象”知識圖譜應(yīng)用平臺，民生銀行能對行內(nèi)外跨部門、跨產(chǎn)品、跨業(yè)務(wù)線中的實體及元數(shù)據(jù)信息進(jìn)行整合，構(gòu)建多觸點(diǎn)、全維度的可視化關(guān)聯(lián)信息圖譜，提供360°全景可視化視圖，破除數(shù)據(jù)孤島。同時，“萬象”知識圖譜平臺底層采用的分布式架構(gòu)支持動態(tài)在線擴(kuò)容，新進(jìn)的業(yè)務(wù)數(shù)據(jù)也能夠?qū)崟r入網(wǎng)，業(yè)務(wù)人員能夠結(jié)合不同的場景利用知識圖譜進(jìn)行實時決策。

第二，圖譜可視化技術(shù)為用戶提供業(yè)務(wù)全流程數(shù)據(jù)關(guān)系展現(xiàn)?！叭f象”知識圖譜平臺能夠為業(yè)務(wù)系統(tǒng)輸出圖查詢、關(guān)聯(lián)和計算能力，同時為業(yè)務(wù)分析人員提供全息圖譜，提升內(nèi)外數(shù)據(jù)關(guān)聯(lián)分析能力;針對研發(fā)人員，則提供數(shù)據(jù)關(guān)聯(lián)關(guān)系分析平臺，分析挖掘環(huán)境更加便利，可實現(xiàn)便捷的可視化建模。最后，“萬象”知識圖譜平臺能夠為業(yè)務(wù)沉淀出一系列可視化數(shù)據(jù)產(chǎn)品，實現(xiàn)全流程業(yè)務(wù)能力升級。

第三，強(qiáng)勁的多跳查詢性能幫助銀行實現(xiàn)實時深挖隱藏關(guān)聯(lián)關(guān)系。依托于Galaxybase原生分布式并行圖數(shù)據(jù)庫可以極快地處理復(fù)雜的多跳關(guān)聯(lián)關(guān)系，“萬象”知識圖譜應(yīng)用平臺能夠?qū)τ阢y行的海量業(yè)務(wù)數(shù)據(jù)進(jìn)行多跳查詢，挖掘查找數(shù)據(jù)間的異常關(guān)聯(lián)關(guān)系，因此能夠快速對傳統(tǒng)方法不能找到的風(fēng)險進(jìn)行預(yù)判和警報，完美契合銀行的反洗錢、反欺詐、對公信貸等業(yè)務(wù)。

項目經(jīng)驗總結(jié)

在數(shù)字經(jīng)濟(jì)時代，為了實現(xiàn)數(shù)據(jù)價值的充分釋放，就需要將數(shù)據(jù)進(jìn)行關(guān)聯(lián)，從單純的數(shù)據(jù)管理轉(zhuǎn)變?yōu)閿?shù)據(jù)關(guān)系的挖掘、分析和利用。民生銀行引入創(chuàng)鄰科技Galaxybase圖平臺建設(shè)知識圖譜應(yīng)用平臺的實踐，為同類型的業(yè)務(wù)場景提供了以下圖數(shù)據(jù)庫及相關(guān)應(yīng)用的選型和使用經(jīng)驗：

1)關(guān)注圖數(shù)據(jù)庫底層技術(shù)支撐能力。銀行業(yè)務(wù)數(shù)字化的快速發(fā)展一定會造成行內(nèi)數(shù)據(jù)量爆發(fā)式增長，銀行企業(yè)在選擇圖數(shù)據(jù)庫時一定要考慮在超大數(shù)據(jù)規(guī)模下的底層數(shù)據(jù)庫支撐能力，要能夠在不降低查詢和計算性能的情況下高效實現(xiàn)知識圖譜的構(gòu)建;同時，對于關(guān)聯(lián)關(guān)系的深度挖掘，銀行企業(yè)需要關(guān)注圖數(shù)據(jù)庫的多跳查詢性能，能夠?qū)崟r挖掘復(fù)雜關(guān)系是關(guān)鍵。

2)重視信創(chuàng)政策，推進(jìn)底層國產(chǎn)化替代。對于金融機(jī)構(gòu)而言，實現(xiàn)底層數(shù)據(jù)基礎(chǔ)設(shè)施的國產(chǎn)化有助于保證整體系統(tǒng)安全穩(wěn)定地運(yùn)行，而且數(shù)據(jù)庫及其配套應(yīng)用需要不斷迭代和適配來滿足未來業(yè)務(wù)場景的拓展，建議各銀行在招標(biāo)過程中將圖數(shù)據(jù)庫的國產(chǎn)技術(shù)和圖應(yīng)用解決方案綜合實力納入考慮，旨在減少后續(xù)更換底層數(shù)據(jù)庫的潛在風(fēng)險和成本。

4. 超融合數(shù)據(jù)庫

4.1企業(yè)多元化快速發(fā)展，超融合數(shù)據(jù)庫在單一技術(shù)棧上滿足各業(yè)務(wù)需求

在數(shù)字化轉(zhuǎn)型的驅(qū)動下，中大型企業(yè)在復(fù)雜多樣的業(yè)務(wù)場景下沉淀了海量多源異構(gòu)的數(shù)據(jù)，而且由于業(yè)務(wù)持續(xù)擴(kuò)張增長的趨勢，部分企業(yè)需要不斷加強(qiáng)數(shù)字化建設(shè)的力度來匹配業(yè)務(wù)的發(fā)展速度。在這種情況下，中大型企業(yè)現(xiàn)有的數(shù)據(jù)庫解決方案在企業(yè)需求的增長下變得愈發(fā)難以為繼。具體而言，業(yè)務(wù)的極速發(fā)展和數(shù)字化帶來數(shù)據(jù)規(guī)模膨脹、數(shù)據(jù)類型多樣化使得現(xiàn)有的數(shù)據(jù)庫設(shè)施遇到了以下方面的難題：

圖8：大數(shù)據(jù)量、多數(shù)據(jù)類型帶來的數(shù)據(jù)庫使用問題

1. 承載數(shù)據(jù)類型有限。業(yè)務(wù)場景的拓展帶來了更加復(fù)雜的數(shù)據(jù)類型，企業(yè)需要對異構(gòu)的數(shù)據(jù)進(jìn)行高效存儲以便后續(xù)查詢分析，而傳統(tǒng)的關(guān)系型數(shù)據(jù)對非結(jié)構(gòu)化數(shù)據(jù)的承載能力有限。通過引入專用的非結(jié)構(gòu)化數(shù)據(jù)庫，企業(yè)雖然可以存儲與之相對應(yīng)的非結(jié)構(gòu)化數(shù)據(jù)，但是卻造成數(shù)據(jù)庫系統(tǒng)分散獨(dú)立的情況，難以統(tǒng)一維護(hù)管理，從而帶來額外的運(yùn)維成本。

2. 海量數(shù)據(jù)查詢遇到數(shù)據(jù)庫性能的瓶頸。隨著大型企業(yè)快速發(fā)展帶來的數(shù)據(jù)規(guī)模膨脹以及查詢復(fù)雜度的提升，原有數(shù)據(jù)庫在響應(yīng)速度上難以滿足企業(yè)實時查詢分析的需求，從而導(dǎo)致業(yè)務(wù)運(yùn)轉(zhuǎn)停頓或無法進(jìn)行數(shù)據(jù)決策。

為了解決企業(yè)在業(yè)務(wù)快速發(fā)展過程中遇到的多數(shù)據(jù)類型和性能方面的難題，超融合數(shù)據(jù)庫是在內(nèi)核層面采用模塊化和插件化的架構(gòu)，通過插拔不同類型的數(shù)據(jù)引擎，實現(xiàn)對不同模型數(shù)據(jù)進(jìn)行處理能力的數(shù)據(jù)庫。超融合數(shù)據(jù)庫能夠支持用戶在一套系統(tǒng)中統(tǒng)一處理關(guān)系、圖、時序、文檔等多種模型的數(shù)據(jù)，簡易的架構(gòu)不會為企業(yè)增加過多的運(yùn)維管理成本。同時，超融合數(shù)據(jù)庫具備與常見的專用數(shù)據(jù)庫或大數(shù)據(jù)引擎同等或更好的性能表現(xiàn)。具體而言，超融合數(shù)據(jù)庫為企業(yè)帶來了以下優(yōu)勢：

圖9：超融合數(shù)據(jù)庫支持多類型數(shù)據(jù)，單一架構(gòu)簡化運(yùn)維

1. 支持多種類型數(shù)據(jù)。超融合數(shù)據(jù)庫在單一架構(gòu)上實現(xiàn)了多模態(tài)數(shù)據(jù)的融通管理，通過部署適用于不同數(shù)據(jù)類型的存儲和計算引擎，超融合數(shù)據(jù)庫實現(xiàn)了多種異構(gòu)數(shù)據(jù)，例如結(jié)構(gòu)化數(shù)據(jù)、時序數(shù)據(jù)、圖數(shù)據(jù)等，的統(tǒng)一寫入、存儲和管理。

2. 簡化運(yùn)維。超融合數(shù)據(jù)庫采用創(chuàng)新性架構(gòu)，利用模塊化的引擎來支持不同類型數(shù)據(jù)的存儲和計算，避免了引入多種專用數(shù)據(jù)庫造成系統(tǒng)冗余的情況。此外，超融合數(shù)據(jù)庫使用統(tǒng)一的應(yīng)用訪問接口和優(yōu)化器簡化系統(tǒng)架構(gòu)，在有效支撐業(yè)務(wù)發(fā)展的前提下，極大減少了數(shù)據(jù)庫的運(yùn)維成本。

3. 查詢分析性能提升。超融合數(shù)據(jù)庫相比常見的大數(shù)據(jù)引擎具備更強(qiáng)的性能表現(xiàn)，在單表查詢、復(fù)雜SQL運(yùn)算等能力上均有顯著的提升。此外，超融合數(shù)據(jù)庫還針對不同類型數(shù)據(jù)的處理需求進(jìn)行優(yōu)化，以獲得比常見專用數(shù)據(jù)庫更強(qiáng)的性能表現(xiàn)。總體而言，強(qiáng)勁的性能表現(xiàn)能夠縮短數(shù)據(jù)庫服務(wù)響應(yīng)時間，能夠使業(yè)務(wù)運(yùn)行更加流暢，及時支撐實時決策。

案例4：某新能源頭部制造企業(yè)基于超融合數(shù)據(jù)庫打造“數(shù)據(jù)湖倉平臺”，支撐企業(yè)高速發(fā)展

伴隨近年來新能源汽車在全球范圍內(nèi)的銷量劇增，處于新能源汽車產(chǎn)業(yè)鏈重要位置的國內(nèi)某頭部制造企業(yè)也迎來了業(yè)務(wù)的快速發(fā)展。為了提高產(chǎn)能，并降本增效，該企業(yè)需要不斷加強(qiáng)數(shù)字化建設(shè)，以支撐全球產(chǎn)品溯源追蹤、生產(chǎn)及售后運(yùn)營分析、設(shè)備預(yù)測性維護(hù)等多項業(yè)務(wù)。

然而，隨著該企業(yè)業(yè)務(wù)規(guī)模的迅速擴(kuò)張，其需要處理的數(shù)據(jù)規(guī)模急劇膨脹，數(shù)據(jù)類型也比以往更加復(fù)雜，導(dǎo)致該企業(yè)原先基于MySQL、Greenplum構(gòu)建的數(shù)據(jù)庫系統(tǒng)面臨顯著的性能和功能瓶頸，也給該企業(yè)的業(yè)務(wù)開展帶來以下挑戰(zhàn)：

1)原有數(shù)倉集群遭遇性能瓶頸，維護(hù)擴(kuò)容復(fù)雜，難以應(yīng)對業(yè)務(wù)快速增長需求。

隨著業(yè)務(wù)的快速擴(kuò)展，帶來數(shù)據(jù)規(guī)模的快速增長，以及查詢復(fù)雜度快速提升，原有集群的 CPU 使用率長期維持高位運(yùn)行，導(dǎo)致計算和查詢作業(yè)長時間排隊，致使業(yè)務(wù)間歇性卡頓，部分大型報表的等待時間甚至超過30 分鐘，嚴(yán)重影響了業(yè)務(wù)的運(yùn)行效率和使用體驗。另一方面，原有數(shù)倉平臺的擴(kuò)容也需要伴隨較長時間的停機(jī)等待，同時不支持?jǐn)?shù)據(jù)的分層存儲管理，這使得對原有平臺進(jìn)行不斷擴(kuò)容，在時間和成本上都不可持續(xù)。

2)智能制造亟待擴(kuò)充復(fù)雜時序處理及分析能力。

該企業(yè)作為大型制造業(yè)集團(tuán)，也在積極探索智能制造的轉(zhuǎn)型創(chuàng)新，而首要的是對廣大的生產(chǎn)裝備進(jìn)行數(shù)字化升級，這帶來廣泛的 IoT 場景需求。在其整體數(shù)據(jù)結(jié)構(gòu)中，除了由常見的 MES、ERP 系統(tǒng)所產(chǎn)生的關(guān)系型數(shù)據(jù)，還有由數(shù)采單元面向設(shè)備、物料和流程采集到的時序、GIS 等類型數(shù)據(jù)，比如涵蓋近百個指標(biāo)的生產(chǎn)制造設(shè)備工況數(shù)據(jù)、已售出產(chǎn)品的運(yùn)行數(shù)據(jù)以及歷史維修數(shù)據(jù)等。目前架構(gòu)中是通過 MySQL 和 Greenplum 來承載時序數(shù)據(jù)，但 MySQL 及 Greenplum 并不具備專門針對時序場景的強(qiáng)化特性及功能，數(shù)據(jù)承載力和查詢能力都十分有限：

? 寫入性能：無法承載超大設(shè)備帶來的海量數(shù)據(jù)寫入負(fù)載;

? 寫入功能：無法支持動態(tài)、亂序、延遲寫入，以應(yīng)對復(fù)雜工況下的數(shù)據(jù)產(chǎn)生環(huán)境;

? 查詢能力：點(diǎn)查詢性能有限，沒有窗口查詢、庫內(nèi)機(jī)器學(xué)習(xí)等。

3)數(shù)據(jù)量倍數(shù)增張，總部中心集群負(fù)載壓力大

目前，該企業(yè)集團(tuán)在全國擁有數(shù)十家分支生產(chǎn)基地，每個生產(chǎn)基地的產(chǎn)線系統(tǒng)都需要高性能及可靠穩(wěn)定的數(shù)據(jù)管理系統(tǒng)。面向未來，預(yù)期整個集團(tuán)將持續(xù)以倍數(shù)級擴(kuò)充產(chǎn)能，產(chǎn)線數(shù)據(jù)量將翻倍增長，對數(shù)據(jù)管理的承載力、效率、成本和易用性都提出了更高標(biāo)準(zhǔn)。

目前所有數(shù)據(jù)直接進(jìn)入總部，對總部集群造成很大負(fù)載壓力。除了持續(xù)擴(kuò)容外，在不增加太多運(yùn)維復(fù)雜度的基礎(chǔ)上，客戶迫切希望建立一套總分結(jié)合的“總部(云)+工廠(邊)”協(xié)同架構(gòu)，在增強(qiáng)整體數(shù)據(jù)承載能力的同時，也優(yōu)化各子公司的數(shù)據(jù)平臺能力，實現(xiàn)對整體數(shù)據(jù)管理與治理能力的升級。

基于超融合數(shù)據(jù)庫，實現(xiàn)一套系統(tǒng)滿足企業(yè)多種類型數(shù)據(jù)存儲與處理需求

為了滿足對大規(guī)模、多源異構(gòu)數(shù)據(jù)的存儲與處理需求，該企業(yè)需要引入新的數(shù)據(jù)基座來替換原先的MySQL、Greenplum數(shù)據(jù)庫。在此過程中，該企業(yè)考慮過Hadoop技術(shù)棧，但基于Hadoop技術(shù)棧滿足業(yè)務(wù)需求，需要同時構(gòu)建非常復(fù)雜的開發(fā)和運(yùn)維體系，成本過高。

由于YMatrix超融合數(shù)據(jù)庫具備高性能、支持多種數(shù)據(jù)類型、運(yùn)維簡單等優(yōu)勢，便成為了該企業(yè)的的最終選擇。

YMatrix成立于 2020 年，是一家創(chuàng)新型基礎(chǔ)軟件公司，致力于物聯(lián)網(wǎng)時代新一代數(shù)據(jù)基礎(chǔ)設(shè)施軟件的研發(fā)，并提供相關(guān)產(chǎn)品、解決方案及一站式商業(yè)服務(wù)。公司在業(yè)界率先提出超融合數(shù)據(jù)庫理念，并發(fā)布了 YMatrix 超融合數(shù)據(jù)庫，基于獨(dú)創(chuàng)的多微內(nèi)核開放架構(gòu)，在單一數(shù)據(jù)庫之上，實現(xiàn)多模態(tài)數(shù)據(jù)的融通管理，及全場景查詢分析的統(tǒng)一支持。YMatrix超融合數(shù)據(jù)庫可面向物聯(lián)網(wǎng)應(yīng)用、工業(yè)互聯(lián)網(wǎng)、智能運(yùn)維、智慧城市、智能家居、車聯(lián)網(wǎng)等場景，提供架構(gòu)簡潔、功能豐富的數(shù)據(jù)基礎(chǔ)設(shè)施，并已在多家行業(yè)頭部公司成功實現(xiàn)商業(yè)化落地。

圖10：某新能源頭部制造企業(yè)基于超融合數(shù)據(jù)庫打造的“數(shù)據(jù)湖倉平臺”

YMatrix超融合數(shù)據(jù)庫在該企業(yè)內(nèi)替代了原先的MySQl、Greenplum等數(shù)據(jù)庫，在支持多種類型數(shù)據(jù)的存儲、匯集與管理的同時，通過全面的功能承接了各類業(yè)務(wù)需求。具體而言，YMatrix超融合數(shù)據(jù)庫的以下功能特性解決了該企業(yè)此前存在的各種問題：

1)支持多種數(shù)據(jù)。由YMatrix超融合數(shù)據(jù)庫承建數(shù)據(jù)湖倉平臺，對接產(chǎn)線MES系統(tǒng)、ERP系統(tǒng)及給類型生產(chǎn)設(shè)備數(shù)采系統(tǒng)等，將TP業(yè)務(wù)數(shù)據(jù)、時序數(shù)據(jù)、GIS數(shù)據(jù)、JSON文本數(shù)據(jù)，以及過去的歷史數(shù)據(jù)等等多種數(shù)據(jù)，統(tǒng)一進(jìn)行寫入、存儲、管理，支持?jǐn)?shù)據(jù)亂序、延遲寫入，支持ACID以確保數(shù)據(jù)完整性;

2)提供統(tǒng)一的查詢。YMatrix超融合數(shù)據(jù)庫通過標(biāo)準(zhǔn)SQL提供多類型數(shù)據(jù)查詢，在數(shù)據(jù)湖內(nèi)實現(xiàn)數(shù)據(jù)的跨類型聯(lián)合分析，而無需再并行建設(shè)專門的技術(shù)棧;

3)支持庫內(nèi)機(jī)器學(xué)習(xí)。YMatrix超融合數(shù)據(jù)庫支持庫內(nèi)機(jī)器學(xué)習(xí)建模，可代替Flink + Spark，使算法建模及計算在YMatrix集群內(nèi)實現(xiàn)，無需大規(guī)模的數(shù)據(jù)ETL過程，大幅簡化系統(tǒng)架構(gòu)，且性能大幅提升，算法分析工作效率提升10倍;

4)較高的查詢性能。YMatrix超融合數(shù)據(jù)庫針對寫入和分析等重點(diǎn)領(lǐng)域進(jìn)行了多達(dá)138項深度的指令級的優(yōu)化，能夠在單表查詢、多表關(guān)聯(lián)分析、時序數(shù)據(jù)查詢等常用場景上獲得比主流專用數(shù)據(jù)庫更高的性能。

5)簡化運(yùn)維。YMatrix超融合數(shù)據(jù)庫技術(shù)架構(gòu)簡化靈活，運(yùn)維人員需要管理的技術(shù)棧變少，因此從根源上降低了其運(yùn)維復(fù)雜度。同時，YMatrix超融合數(shù)據(jù)庫提供大量圖形化及自動化的運(yùn)維能力，包括：在線擴(kuò)容、自動數(shù)據(jù)平衡、數(shù)據(jù)生命周期管理、運(yùn)維監(jiān)控等，幫助用戶降低操作門檻、獲得更好的使用體驗以及更加自動化的作業(yè)能力。

此外，為了降低總部中心集群負(fù)載壓力，YMatrix為該企業(yè)建設(shè)了邊緣數(shù)倉，即在分支工廠部署獨(dú)立數(shù)倉平臺，承載工廠的 MES、ERP、PLM 等各系統(tǒng)數(shù)據(jù)，完成這些生產(chǎn)數(shù)據(jù)在本級的數(shù)據(jù)歸集，同時進(jìn)行預(yù)處理查詢分析，篩選出符合總部需要的數(shù)據(jù)后再上傳總部集群。新構(gòu)建的“總部(云)+ 工廠(邊)”協(xié)同架構(gòu)，在強(qiáng)化本地數(shù)據(jù)就近處理的能力之上，有效降低了集團(tuán)集群的負(fù)載，為后期業(yè)務(wù)的長期穩(wěn)定運(yùn)行及良性擴(kuò)展奠定架構(gòu)基礎(chǔ)。

超融合數(shù)據(jù)庫落地后的價值與效果

第一，性能大幅提升，為應(yīng)對業(yè)務(wù)量大規(guī)模擴(kuò)張奠定基礎(chǔ)。在使用YMatrix超融合數(shù)據(jù)庫后，該企業(yè)解決了原有集群性能不足、擴(kuò)容服務(wù)器耗時長、報表查詢等待過久等各項問題，查詢耗時最高縮短79%，為平臺支撐的各項業(yè)務(wù)服務(wù)體驗提供充沛的性能支持。

第二，為數(shù)智化創(chuàng)新提供新一代通用數(shù)據(jù)基座，并提供更友好的使用體驗，大幅降低運(yùn)維復(fù)雜度。通過 YMatrix超融合數(shù)據(jù)庫，支持多模態(tài)數(shù)據(jù)的全場景查詢分析需求，能夠服務(wù)企業(yè)級用戶未來 5-10 年可能存在的需求，幫助該企業(yè)避免了產(chǎn)品疊加或技術(shù)架構(gòu)反復(fù)調(diào)整帶來的技術(shù)風(fēng)險和不必要成本。同時，YMatrix超融合數(shù)據(jù)庫通過數(shù)據(jù)超融合能力大幅精簡了系統(tǒng)架構(gòu)，并供大量圖形化及自動化的運(yùn)維能力，從而降低了數(shù)據(jù)庫的運(yùn)維復(fù)雜度，讓用戶工作更加專注，作業(yè)更加高效。

第三，數(shù)據(jù)管理成本獲得有效控制，同時降低總部集群的壓力。YMatrix超融合數(shù)據(jù)庫在為？數(shù)據(jù)平臺帶來了上述優(yōu)化與新功能的同時，在保證性能滿？需求的前提下，使得該企業(yè)每年在資源上的成本開銷減少了？少30%。同時，通過搭建更科學(xué)經(jīng)濟(jì)的“總部(云)+ 工廠(邊)”協(xié)同架構(gòu)，減少數(shù)據(jù)傳輸成本的同時，降低因組織結(jié)構(gòu)龐大、產(chǎn)能持續(xù)壯大給總部集群帶來的壓力。

項目經(jīng)驗總結(jié)

當(dāng)前，中國正在從“制造大國”向“制造強(qiáng)國”轉(zhuǎn)型，與此同時，一批代表著戰(zhàn)略新興行業(yè)方向的制造業(yè)企業(yè)在市場需求以及政策推動下，正處在高速發(fā)展過程中。為了實現(xiàn)這樣的目標(biāo)，數(shù)智化在其中將會起到關(guān)鍵支撐作用。我們認(rèn)為，上述新能源頭部制造企業(yè)與YMatrix合作的案例，可以為同樣處于快速發(fā)展階段的制造業(yè)企業(yè)帶來以下借鑒意義：

第一，數(shù)據(jù)基座的選型需要超前考慮中長期的業(yè)務(wù)發(fā)展需求。隨著企業(yè)業(yè)務(wù)的快速發(fā)展，企業(yè)內(nèi)部數(shù)據(jù)量必然迅速增長，數(shù)據(jù)類型也將變得更加復(fù)雜。由于數(shù)據(jù)庫等基礎(chǔ)設(shè)施的遷移是項成本非常高昂的工作，企業(yè)在選型時需要充分評估未來5-10年的業(yè)務(wù)需求，選擇能夠應(yīng)對中長期數(shù)據(jù)存儲和處理需求的數(shù)據(jù)基座。

第二，為避免傳統(tǒng)方案復(fù)雜的開發(fā)和運(yùn)維，企業(yè)可以考慮創(chuàng)新性的超融合數(shù)據(jù)庫。盡管市場上有一些大數(shù)據(jù)方案能夠滿足企業(yè)各類復(fù)雜的數(shù)據(jù)存儲和處理需求，如Hadoop技術(shù)棧，但面對企業(yè)復(fù)雜的需求，其開發(fā)和運(yùn)維也非常復(fù)雜。超融合數(shù)據(jù)庫在簡化系統(tǒng)架構(gòu)的同時，具備支持多種數(shù)據(jù)類型、性能高、運(yùn)維簡單等優(yōu)勢，是處于快速發(fā)展階段的企業(yè)非常理想的選擇。

5. 結(jié)語

從本報告所挑選的多個案例中，我們可以看到，看似已經(jīng)非常成熟的數(shù)據(jù)庫市場，在各個細(xì)分方向一直在適應(yīng)企業(yè)不斷變化的需求，往更強(qiáng)的性能、更豐富的功能，更簡化的使用和運(yùn)維的方向進(jìn)化，并且這個趨勢還在延續(xù)當(dāng)中。

而對于每個企業(yè)而言，當(dāng)它們在對數(shù)據(jù)基礎(chǔ)設(shè)施進(jìn)行規(guī)劃，對數(shù)據(jù)庫升級換代時，需要結(jié)合企業(yè)內(nèi)部情況權(quán)衡多方面的問題。既要對業(yè)務(wù)需求進(jìn)行全局思考，選擇能夠適應(yīng)企業(yè)未來發(fā)展的技術(shù)架構(gòu)，也要結(jié)合企業(yè)現(xiàn)階段數(shù)據(jù)基礎(chǔ)，滿足在性能、功能、運(yùn)維等各方面要求的同時，選擇成本更低、使用更簡單的數(shù)據(jù)庫方案。

來源：號外網(wǎng)

責(zé)任編輯：侯哲

化繁為簡，數(shù)字化推動企業(yè)數(shù)據(jù)庫升級煥新 | 愛分析報告

相關(guān)文章

當(dāng)微商、干服務(wù)員、做直播 “轉(zhuǎn)行”的導(dǎo)游們回來了！

榮膺《銀行家》兩大重磅獎項，新湖財富展現(xiàn)硬核品牌力量

社科院毛發(fā)行業(yè)白皮書：雍禾醫(yī)療三張王牌凸顯

首發(fā)｜進(jìn)入數(shù)字航運(yùn)新進(jìn)程，好三由官宣完成A輪融資

年關(guān)將至，閑魚上掀起年會獎品和明星禮盒交易熱潮

武漢：全新人工合成角膜移植為眼盲患者帶來希望

成都推出“算力券”等專項政策支持算力產(chǎn)業(yè)發(fā)展

內(nèi)蒙古沙漠里開出年宵花 “沙漠蝴蝶蘭”入萬家

“營銷科學(xué)100案”持續(xù)創(chuàng)新升級，以科學(xué)方法助力生意確定性增長

真實生物聯(lián)合復(fù)星醫(yī)藥向農(nóng)村地區(qū)捐贈價值1億元新冠口服藥阿茲夫定

熱點(diǎn)聚焦

【潮起東方·中國外交之中國智慧】中東國家迎來“和解...

2023看中國|金融貿(mào)易政策展望——企穩(wěn)回升穩(wěn)步走強(qiáng)

【潮起東方·中國外交之一帶一路】中印尼共建“一帶一...

熱門評論

魯山“丑且貴”的雕塑為何一路綠燈？

讀懂中國經(jīng)濟(jì)須扔掉“灰色濾鏡”

唱衰中國，只會在事實面前反復(fù)碰壁

遏制打壓阻擋不了中國發(fā)展的步伐

做抗洪救災(zāi)重建家園的主人

化繁為簡，數(shù)字化推動企業(yè)數(shù)據(jù)庫升級煥新 | 愛分析報告

相關(guān)文章

熱點(diǎn)聚焦

熱門評論

化繁為簡，數(shù)字化推動企業(yè)數(shù)據(jù)庫升級煥新 | 愛分析報告