繁體簡體

化繁為簡,數字化推動企業(yè)數據庫升級煥新 | 愛分析報告

華夏經緯網 > 新聞 > 大陸新聞 > 社會綜合      2023-01-14 12:11:35

報告編委

黃勇

愛分析合伙人&首席分析師

洪逸群

愛分析高級分析師

張良筠

愛分析分析師

外部專家(按姓氏拼音排序)

李遠志

柏睿數據 副總裁

謝寅

鏡舟科技 資深解決方案架構師

許哲

中信建投證券 數據組VP

姚延棟

YMatrix 創(chuàng)始人&CEO

張晨

創(chuàng)鄰科技 CEO

特別鳴謝(按拼音排序)

報告摘要

隨著近幾年整個產業(yè)數字化進程的深入,數據庫的應用場景變得更多、更復雜,導致數據庫需要應對相比以往急劇增長的數據規(guī)模,處理更加多樣的數據類型,以及具備更加復雜的場景化能力。

因此,近年來,高性能、非關系型數據支持、簡化使用和運維,場景化解決方案等能力成為企業(yè)應用數據庫的關鍵考量因素,多種新一代的數據庫也逐漸在企業(yè)中落地。

分析型數據庫釋放業(yè)務數據潛在價值

分析型數據庫作為數據基礎設施的核心,需要提供高效的數據查詢和計算服務支撐業(yè)務運轉。然而企業(yè)現(xiàn)有的大數據引擎逐漸暴露出了即席查詢不夠敏捷、大數據量高并發(fā)響應慢、固定報表運算效率低下的性能缺陷。此外,多數據源存儲系統(tǒng)的分散獨立使得數據聯(lián)通查詢分析遇到困難。

針對現(xiàn)有數據分析引擎的性能缺陷和多數據源無法聯(lián)通的問題,分析型數據庫著重提升了即席查詢、大規(guī)模數據高并發(fā)查詢、固定報表運算效率,并且提供聯(lián)邦的功能支持跨多數據源進行查詢和分析,打破了企業(yè)數據孤島,釋放業(yè)務數據價值。

圖數據庫助力挖掘數據關聯(lián)關系

在進行業(yè)務數據分析時,識別數據間的關聯(lián)并對其特點進行研究是一項重要的工作,例如在社交網絡、金融風控、營銷等場景都需要從海量數據中發(fā)掘出單體之間的隱藏關系。但由于傳統(tǒng)的關系型數據庫對關聯(lián)關系的查詢能力有限,以及相關分析工具和解決方案的缺失,關聯(lián)關系的挖掘成為企業(yè)面臨的難題。

圖分析解決方案為了應對企業(yè)在數據關系探索上的難題,利用圖數據庫的存儲和關系計算能力,支持用戶使用圖算法對海量數據進行挖掘并對其關系特點進行分析。此外,知識圖譜平臺具備圖譜構建和知識推理計算能力,將圖的關聯(lián)關系轉化為知識,實現(xiàn)業(yè)務洞察。

超融合數據庫支撐企業(yè)多元化業(yè)務快速發(fā)展

中大型企業(yè)在復雜多樣的業(yè)務場景中沉淀了海量數據,而且由于業(yè)務持續(xù)擴張增長的趨勢,企業(yè)需要不斷加強數字化基座的能力來匹配海量數據規(guī)模和業(yè)務發(fā)展速度。然而企業(yè)現(xiàn)有的的數據庫承載數據類型有限并且性能表現(xiàn)不足,難以滿足企業(yè)對數據庫服務的需求。

為了解決在業(yè)務快速發(fā)展過程中遇到的承載數據類型限制和性能表現(xiàn)欠佳的問題,超融合數據庫部署了針對不同數據類型的專有引擎,技術架構的簡易化不會為企業(yè)增加過多的運維管理成本。同時,超融合數據庫具備與常見的專用數據庫或大數據引擎同等或更好的性能表現(xiàn)。

目錄

1. 報告綜述

2. 分析型數據庫

3. 圖數據庫

4. 超融合數據庫

5. 結語

1. 報告綜述

作為承載各類數據存儲和處理需求的基礎設施,數據庫在企業(yè)數字化轉型的過程中起到了關鍵的支撐作用。但隨著近幾年產業(yè)數字化進程的深入,數據庫的應用場景比以往更多、更復雜,導致數據庫需要應對以下幾點關鍵變化和挑戰(zhàn)。

首先,企業(yè)內的數據規(guī)模在急劇增長。無論是企業(yè)尋求通過數字化轉型實現(xiàn)數據驅動業(yè)務決策,還是一些新興行業(yè)企業(yè)業(yè)務的快速擴張,都讓企業(yè)的數據量從原先的幾十TB,迅速增長至幾百TB,甚至是PB級。然而傳統(tǒng)的數據庫在性能方面,很難應對如此大規(guī)模數據量的查詢分析。

其次,企業(yè)需要存儲和處理的數據類型變得更多樣。關系型數據占主導地位的時代已經過去,現(xiàn)在,企業(yè)在很多新興應用場景中為了提高數據存儲和分析效率,采用了新的數據模型。例如,營銷、風控中用于關聯(lián)關系分析的圖數據,制造業(yè)中用于記錄生產過程的時序數據,以及文檔、健值、GIS等各種數據模型。如何處理多種類型數據,成為企業(yè)在數據庫層面需要首先解決的問題。

最后,企業(yè)越來越需要數據庫具備場景化的解決方案。通常,企業(yè)已經建有一定的數據基礎設施,且不同行業(yè)企業(yè)的數據應用場景往往有一些特殊要求,為了減少數據遷移和加載,并加速數據分析,企業(yè)需要數據庫具備相應場景化的功能和解決方案。例如,在大數據量固定報表場景,企業(yè)需要數據庫具備預計算能力;在企業(yè)有多套業(yè)務系統(tǒng)需要聯(lián)合分析的場景,企業(yè)需要數據庫具備聯(lián)邦查詢能力;在工業(yè)企業(yè)需要不斷收集數據做預測性維護的場景,企業(yè)需要數據庫具備庫內機器學習的能力。

圖 1: 數據庫應用面臨的三大挑戰(zhàn)

面對這些變化和挑戰(zhàn),數據庫業(yè)內一直在升級或推出新的數據庫產品,以滿足企業(yè)的需求。為了提升數據庫性能,企業(yè)可以采用基于分布式、內存存儲,以及多種技術優(yōu)化的新一代數據庫;為了處理多種類型數據,企業(yè)可以選擇各種專用數據庫,如圖數據庫、時序數據庫、搜索引擎等,而當企業(yè)部署了多套數據庫系統(tǒng),運維難度大,且又需要做聯(lián)合分析時,在內核層融合多類型數據處理能力的超融合數據庫,則是最佳選擇;為了實現(xiàn)場景解決方案,具備預計算、聯(lián)邦查詢、庫內機器學習等其中一種或多種能力的數據庫,逐漸成為企業(yè)重點關注的因素。

為了幫助企業(yè)更好地理解如何應用合適的數據庫解決企業(yè)面臨的這些普遍問題,本報告選取了分析型數據庫、圖數據庫和超融合數據庫市場的4個典型的數據庫應用案例,對每個案例中的企業(yè)需求、解決方案和落地效果進行詳細分析,并總結提煉案例背后體現(xiàn)的共性價值。

2. 分析型數據庫

2.1分析型數據庫多方位優(yōu)化性能,高效提供數據服務

在數字化轉型的驅動下,各行業(yè)均呈現(xiàn)出數據量爆發(fā)式增長、數據應用場景多樣化拓展的趨勢。面對海量數據,如何從中發(fā)掘出有效信息來支持決策,成為企業(yè)業(yè)務運轉和實現(xiàn)轉型增長的關鍵。分析型數據庫作為數據基礎設施的核心,不僅要為各系統(tǒng)輸送數據查詢和分析的能力,而且要保證自身服務的高效性來滿足及時用數的需求。

然而,在業(yè)務場景不斷拓展、數據規(guī)模持續(xù)增長的壓力下,企業(yè)傳統(tǒng)使用的查詢分析引擎性能表現(xiàn)嚴重不足,無法支持實時業(yè)務決策,具體表現(xiàn)在:

即席查詢不夠敏捷。在企業(yè)進行決策時,數據分析作為了解業(yè)務運轉情況的重要手段之一,需要通過多表關聯(lián)、自由組合查詢條件的方式對多維度指標進行上卷和下鉆探查。然而傳統(tǒng)的分析引擎在大數據量、復雜查詢的場景下逐漸無法適用,會出現(xiàn)響應慢,甚至無法獲取查詢結果的問題,不能夠很好地支持數據聚合計算、明細查詢等需求;

大數據量、高并發(fā)請求響應慢。隨著數據查詢和分析的需求逐漸向業(yè)務端推進,業(yè)務人員也常常需要進行日常查詢操作來支撐實時決策。然而大型企業(yè)通常業(yè)務人員眾多,不免帶來同時間下多點并發(fā)查詢的請求,對數據庫造成性能壓力,引起響應延時的問題;

固定報表運算效率低下。除了自助分析之外,企業(yè)還需要通過固定報表了解關鍵指標的動態(tài)和趨勢。固定報表通常由多個SQL組成,涉及數據量大且計算維度多,容易造成數據庫計算效率低下的問題。

針對現(xiàn)有數據庫在性能上的欠缺,分析型數據庫廠商著重提升了即席查詢、大規(guī)模數據高并發(fā)執(zhí)行、固定報表等方面的性能來滿足企業(yè)用數需求。具體從以下方面著手解決問題:

圖2: 優(yōu)化分析型數據庫性能加速服務響應

優(yōu)化在大數據量、多表關聯(lián)復雜計算的能力。分析型數據庫通過具備高效數據存取的全內存架構、查詢索引優(yōu)化、多表連接優(yōu)化等手段提升數據吞吐量和查詢計算效率,減少業(yè)務決策的停頓等待時間;

提升數據吞吐量、任務執(zhí)行并發(fā)度。為了滿足大數據量、高并發(fā)的數據查詢請求,分析型數據庫通常采用分布式部署,利用大規(guī)模并行執(zhí)行架構的優(yōu)勢,配合均衡分配節(jié)點負載等手段提升數據吞吐量,使數 據庫具備多任務并發(fā)能力;

引入預計算加速固定查詢。在固定報表的場景下,分析型數據庫可以引入預計算能力,利用構建物化視圖的方式復用常見查詢,加速復雜SQL計算能力。

2.2高效聯(lián)通多數據系統(tǒng),聯(lián)邦查詢跨源提供數據查詢

隨著數據來源的拓展,以及數據存儲系統(tǒng)相對獨立,企業(yè)難以將多數據源進行打通,造成數據聯(lián)通查詢分析困難的問題。當分析人員需要結合其他業(yè)務數據或站在全局視角進行決策時,會遇到系統(tǒng)間數據流轉不暢、數據加工繁瑣、用數口徑不一致等問題,難以保證決策的準確性。

此外,Hadoop大數據解決方案需要大量數據搬遷,將多源數據整合成內表進行統(tǒng)一查詢,企業(yè)在已經具備成熟的大數據存儲引擎的情況下通常進行大規(guī)模數據遷移的成本會很高。

圖3:聯(lián)邦功能跨多數據源查詢

針對企業(yè)多數據源的情況,一些分析型數據庫提供聯(lián)邦查詢的功能,支持查詢多源數據。外表聯(lián)邦查詢功能通過只保存表對應的元數據,并直接向所在數據源發(fā)起查詢,避開了數據遷移工作,并且實現(xiàn)了數據層面的整合分析。

同時,外表聯(lián)邦查詢功能支持包括MySQL、Elasticsearch、Hive、Iceberg在內的多個第三方數據源,并且可以滿足用戶對不同維度、不同層面聚合或明細查詢的多樣需求。

案例1:某國有商業(yè)銀行構建實時交互式數據分析平臺,高效助力普惠金融業(yè)務

在銀行數字化轉型的過程中,客戶分析和精細化管理至關重要。在普惠金融業(yè)務中,如何對下沉的海量客戶建立數字普惠全景視圖,實現(xiàn)經營狀況及資產質量分析、客戶分析、產品分析、營銷分析等交互式數據分析能力,對于銀行普惠金融業(yè)務的開展起到了關鍵支撐作用。

某國有大型商業(yè)銀行充分利用征信、工商、納稅、電力、司法、結算、供應鏈、政務、采購平臺、貸款信息等行內外數據,將風險指標融入客戶多維畫像信息,建立普惠金融營銷、準入、信用評價、授信、定價、貸后監(jiān)測預警、催收等分析模型,實現(xiàn)關鍵業(yè)務指標實時報送,提供交互式數據分析。該平臺對底層數據基礎設施的實時性、高并發(fā)、穩(wěn)定性和可用性等能力都提出了更高的要求。具體而言,需要解決以下需求:

1)海量異構數據的實時查詢。面對多樣復雜的客戶畫像數據,數據庫作為支撐業(yè)務用戶日常在線使用的系統(tǒng),需要能夠執(zhí)行行內超過200個以上標簽動態(tài)組合以及5張表以上任意條件篩選和組合的復雜查詢,達到秒級響應時間;

2)支撐高并發(fā)業(yè)務查詢場景。該銀行總共有5萬多位客戶經理提供日常對公和對私的業(yè)務服務,會不免出現(xiàn)同時間下的多點數據查詢需求。因此,數據庫要能夠在高并發(fā)場景下及時響應來滿足精準營銷和信貸風控的業(yè)務需要;

3)能夠穩(wěn)定可靠地對外提供數據服務,滿足系統(tǒng)可用性級別要求。金融行業(yè)對數據一致性、系統(tǒng)的RPO和RTO指標、多數據中心等方面有嚴苛的要求,要保證數據不錯不漏、故障無損快速切換,提供多數據中心備災措施等。

基于分布式全內存數據庫RapidsDB構建數據分析平臺

為了滿足以上性能及業(yè)務需求,該銀行將借助分布式內存計算技術提升數據庫分析性能,作為重點考察方向。柏睿數據分布式全內存數據庫RapidsDB在快速部署、集群彈性、性能線性擴展、廣泛兼容、異構數據支持、海量數據計算等多方面獲得行方的高度肯定,從而在行方同類數據庫產品選型中脫穎而出。

柏睿數據成立于 2014 年,是一家以數據庫為核心的“Data+AI〞數據智能基礎軟件公司,國內首家因突破數據庫核心技術而獲得國家級專精特新“小巨人”稱號的民營企業(yè)。柏睿數據作為國內掌握全內存數據庫引擎關鍵專利的企業(yè),基于完全自主研發(fā)的全內存分布式數據庫產品體系和人工智能產品體系,打造軟硬一體化智能數據處理平臺,其產品在算力性能、智能化、安全性、標準化等關鍵技術指標上均業(yè)界領先,已為金融、政務、能源、通信、醫(yī)療等眾多行業(yè)標桿客戶提供原創(chuàng)性數字化轉型技術產品服務。

圖4: 基于分布式全內存數據庫RapidsDB構建的實時交互式數據分析平臺

柏睿分布式全內存數據庫RapidsDB在該行的普惠金融業(yè)務場景中代替了原有的“Oracle + ElasticSearch”復雜技術棧,實現(xiàn)極速性能提升,而且保證了金融級別的穩(wěn)定可靠和高可用性。

為了解決海量用戶數據實時查詢的性能問題,RapidsDB采用全內存架構避開了磁盤訪問I/O,達到更快的查詢速度;在多表關聯(lián)場景下,柏睿通過動態(tài)查詢優(yōu)化、索引使用優(yōu)化、join連接優(yōu)化實現(xiàn)了多表關聯(lián)場景中更強的性能表現(xiàn),達到復雜查詢的即時響應能力。

為了支撐上萬名業(yè)務經理高并發(fā)的查詢需求。RapidsDB采用分布式架構,通過動態(tài)擴展應對任務執(zhí)行量的增長,并且配合查詢優(yōu)化器均衡分配節(jié)點負載。同時,RapidsDB通過數據結構無鎖化實現(xiàn)了最大程度的并發(fā)能力。

針對金融級數據可靠性和可用性的要求,首先,RapidsDB在內存存儲之外還通過事務日志和定期快照不斷地將數據備份到磁盤,實現(xiàn)數據庫內存與持久化存儲,如Flash、SSD、HD等,協(xié)同工作來確保數據無丟失風險。其次,在集群內部可用性方面,數據節(jié)點通過成對的配置在彼此之間共享數據副本,保持數據實時同步。主備節(jié)點均可對外提供服務,如果出現(xiàn)任何葉的故障,RapidsDB將自動切換副本分區(qū)。在節(jié)點出現(xiàn)故障的情況下,RapidsDB通過將適當的副本分區(qū)升級為主分區(qū)來轉移節(jié)點故障,以便數據庫保持在線。在滿足集群內高可用的基礎上,RapidsDB還實現(xiàn)了跨機房數據和系統(tǒng)服務的高可用,支持“同城雙中心”、“兩地三中心”、“三地五中心”等金融級別的災備方案,在系統(tǒng)本身發(fā)生故障、應用層報錯、網絡錯誤、人為錯誤等情形下,數據庫系統(tǒng)均能保障良好的高可用性。

基于RapidsDB數據庫的數據分析平臺落地后的價值與效果

第一, 通過RapidsDB在大規(guī)模異構數據場景下的高性能表現(xiàn),滿足了該銀行對多表關聯(lián)復雜查詢的需求。實現(xiàn)了1100億行數據、40TB大數據量下的實時查詢,支持前端SQL條件靈活組合、最多15個表join的多表復雜查詢。

第二, RapidsDB支撐了全銀行5萬名客戶經理的日常查詢服務,具備典型情況下上百個并發(fā)查詢和極端情況下4000多個并發(fā)查詢的能力,能夠充分應對業(yè)務多點并發(fā)的讀取請求,達到平均3.6秒的響應時間。

第三, RapidsDB能夠穩(wěn)定可靠地運行,提供99.999%高可用的數據服務,滿足金融行業(yè)對數據庫的嚴苛要求,有效支撐了該銀行普惠金融業(yè)務的快速發(fā)展。

項目經驗總結

該銀行的數據分析平臺成功上線以來,柏睿數據RapidsDB分布式全內存數據庫展現(xiàn)了出色的性能和穩(wěn)定性來支撐該銀行普惠金融業(yè)務的轉型升級。該項目的成功落地為同類型業(yè)務或者相似規(guī)模的企業(yè)提供了以下分析型數據庫的使用建議:

1)在類似普惠金融擁有海量多元化數據沉淀,并且要求高實時性查詢的業(yè)務場景中,全內存數據庫因為運行時不需要將數據同步到物理磁盤,從而避免了磁盤I/O限制對系統(tǒng)性能的影響并且減少了系統(tǒng)維護的工作量,所以被該類型業(yè)務場景所青睞。因此,對于數據存取效率要求較高的系統(tǒng),全內存數據庫可以比主要利用磁盤存取的數據庫發(fā)揮更大的性能作用。

2)在類似國有銀行員工數量眾多、內部組織架構復雜的大型企業(yè)中,通常有大量業(yè)務人員同時進行日常查詢操作來保證業(yè)務正常運轉。因此,分析型數據庫需要具備分布式相關技術,通過動態(tài)擴展和平衡分配任務量支持多點并發(fā)的任務請求,保證同一時間下查詢的及時響應。

案例2:中信建投基于分析型數據庫構建統(tǒng)一查詢服務平臺,滿足企業(yè)大規(guī)模用數需求

中信建投證券(簡稱“中信建投”)是經中國證監(jiān)會批準設立的全國性大型綜合證券公司,其在企業(yè)融資、收購兼并、證券經紀、資產管理、股票及衍生品交易等領域形成了自身特色和核心業(yè)務優(yōu)勢,并搭建了研究咨詢、信息技術、運營管理、風險管理、合規(guī)管理等專業(yè)高效的業(yè)務支持體系。目前,中信建投擁有超過1,000萬證券經紀業(yè)務客戶,托管證券市值超過5.5萬億元,位居行業(yè)第2名。

近年來,在證券服務逐漸互聯(lián)網化,以及券商牌照紅利逐漸消退的行業(yè)背景下,中信建投不斷加大對數字化的投入,尤其重視數據基礎設施的建設,期望在客戶服務、經營管理等多方面由經驗依賴向數據驅動轉變,從而提高服務水平和決策效率。因此,在公司總部和各分支機構,包括經紀、資管、投行等業(yè)務部門,以及稽核、審計、財務、法務等職能部門,對自助分析、多維分析、固定報表和API數據服務等形式的用數需求一直在不斷增長。

為了推動整體數字化建設和數據治理工作,中信建投已經在2019年搭建了基于Hadoop體系的數據湖,將大量歷史數據遷移到Hadoop上,用Hive對數據進行加工處理,所有的查詢計算都通過Presto執(zhí)行。但是,該方案在最近兩年數據量快速增長、業(yè)務場景多樣化發(fā)展的趨勢下逐漸無法適用。具體而言,中信建投目前在數據查詢分析中主要存在以下痛點和需求:

1) 數據加工鏈路復雜。在數據分析的流程上,數據部門通常是首先用presto做即席查詢,再通過Hive進行數據加工,最后將加工過后的數據下發(fā)到各部門的Oracle或MySQL事務型數據庫,業(yè)務人員在事務數據庫里對下發(fā)數據進行查詢和分析。整個過程需要在三套系統(tǒng)之間進行數據交換,且三套系統(tǒng)使用的SQL語法也不一致,需要不同人員進行開發(fā)維護,從而產生了多種問題:

數據開發(fā)和維護成本高;

數據口徑可能不一致,導致數據應用結果不準確;

用數需求難以得到及時滿足,通常要“T+1”才能給到數據報表。

2) 大數據量下性能不足,查詢響應慢。中信建投目前大部分的數據都存儲在Hive中,業(yè)務部門在進行自助分析時通常涉及的相關數據量較大,而Presto在大數據量、多表關聯(lián)查詢時會出現(xiàn)響應比較慢,甚至無法獲得查詢結果的問題,無法滿足單表及多表復雜查詢場景下響應的及時性。此外,Presto因為資源隔離不足會出現(xiàn)應用搶占資源的情況,不能很好支持高并發(fā)的查詢請求。

3) 大量實時數據分散在各個業(yè)務系統(tǒng),無法進行聯(lián)合分析。由于中信建投內部存在非常多的業(yè)務系統(tǒng),各業(yè)務系統(tǒng)相互獨立且數據會不斷更新,而這些實時數據無法更新到Hive中,導致業(yè)務數據之間不能及時打通進行聯(lián)合分析。

4) 缺少預計算能力加速固定查詢。固定報表和API數據服務為各業(yè)務提供包括數據匯總結果、明細查詢、數據接口在內的多項能力,而基于固定數據查詢的可視化報表通常數據查詢量大、計算維度較多,一個看板頁面涉及大約一兩百個SQL語句,整體運算效率低下。針對這種情況,中信建投希望通過預計算實現(xiàn)查詢加速,并且要求開發(fā)工作輕量化且資源消耗較低。

引入StarRocks構建統(tǒng)一查詢服務平臺

通過綜合對比數據庫即席查詢、實時分析性能、預計算能力、數據聯(lián)邦技術,并且結合中信建投已經在Hadoop體系中有大量投入,不希望做大規(guī)模數據搬遷的具體情況,將Hive外表查詢支持、SQL語法及函數的兼容性等方面納入選型考慮,中信建投最終選擇引入StarRocks來構建統(tǒng)一的查詢服務平臺,滿足各部門的用數需求。

StarRocks是數據分析新范式的開創(chuàng)者、新標準的領導者。面世三年來,StarRocks 一直專注打造世界頂級的新一代極速全場景 MPP 數據庫,幫助企業(yè)構建極速統(tǒng)一的湖倉新范式,是實現(xiàn)數字化轉型和降本增效的關鍵基礎設施。當前全球超過 200 家市值 70 億元以上的頭部企業(yè)都在基于 StarRocks 構建新一代數據分析能力,包括騰訊、攜程、平安銀行、中原銀行、中信建投、招商證券、眾安保險、大潤發(fā)、百草味、順豐、京東物流、TCL、OPPO 等,并與全球云計算領導者亞馬遜云、阿里云、騰訊云等達成戰(zhàn)略合作。項目在 GitHub 星數已超 3700 個,成為年度開源熱力值增速第一的項目,市場滲透率躋身中國前十名。

圖5:中信建投統(tǒng)一數據查詢服務平臺

作為一款高性能全場景的分析型數據庫,StarRocks使用MPP 架構、可實時更新的列式存儲引擎等技術實現(xiàn)多維、實時、高并發(fā)的數據分析。StarRocks 既支持從各類實時和離線的外部數據源高效導入數據,也支持直接分析數據湖上各種格式的數據,統(tǒng)一的SQL交互將數據分析結果或物化視圖預計算結果分發(fā)到各個數據應用,為中信建投實現(xiàn)了三套系統(tǒng)使用功能的整合以及數據應用流程的簡化。

具體而言,針對中信建投的痛點問題,StarRocks具備如下優(yōu)勢:

1)在性能方面,針對大規(guī)模數據下自助BI敏捷高效的需求。StarRocks向量化執(zhí)行引擎,全面實現(xiàn)了SIMD指令,保證查詢和向量化導入可以充分利用單機單核CPU的處理能力;StarRocks自研的Pipeline協(xié)程引擎,使得StarRocks可以應對更高的并發(fā)查詢,充分利用單機多核CPU的處理能力,與此同時可以更優(yōu)雅的進行CPU時間分片調度從而實現(xiàn)資源隔離的功能;StarRocks采用大規(guī)模并行處理(MPP)架構,可以充分利用多機多核的集群資源,保證查詢性能可以線性擴展;并用基于成本的優(yōu)化器CBO、RuntimeFilter、延遲物化、全局低基數字典等多種?段實現(xiàn)極致查詢性能。

2)在外部表聯(lián)邦查詢方面,StarRocks可通過創(chuàng)建外部表的?式,在 StarRocks 讀取其他數據源,如MySQL、Elasticsearch、Hive等外部表中的數據,從?打破數據的隔離。以Hive外表功能為例,中信建投可以將其Hive中的離線數據導? StarRocks 中進??性能分析查詢。同時,StarRocks 也可以扮演數據湖的??,將離線數據與實時數據進?關聯(lián),打通不同數據存儲間的壁壘,從??撐業(yè)務分析時在數據湖中進?數據探查和極致分析的需求。

3)在預計算方面,為了實現(xiàn)固定報表的加速,StarRocks引入預計算的手段,通過創(chuàng)建多表、外表物化視圖的方式對明細數據進行上卷和下鉆,復用常見查詢有效優(yōu)化了復雜SQL計算效率,滿足用戶對固定維度聚合分析以及原始明細數據任意維度分析的多樣需求。

中信建投統(tǒng)一查詢服務平臺落地后的效果與價值

第一,大數據查詢性能得到顯著提升。采用StarRocks內部表加速明細數據關聯(lián)查詢,實現(xiàn)了上億級別數據量大表關聯(lián)秒級響應,內表查詢效率提升10倍以上,外表查詢效率提升1倍以上,完全滿足大數據量下查詢分析及時響應的需求;

第二,預計算能力降低了固定報表加工成本。采用StarRocks預計算能力可以將固定報表和API數據服務響應速度提升1倍以上。多表物化視圖、外表物化視圖、QueryRewrite等高階功能,可以有效降低數據建模成本,使得“直面分析,按需加速”成為可能。

第三,降低數據遷移成本,提升數據管理和使用效率。StarRocks基于Hive外表做查詢,減少了元數據和底層數據的遷移成本,并實現(xiàn)了實時數據聯(lián)通分析。同時,以StarRocks為統(tǒng)一數據服務入口,降低了整體數據查詢和加工的復雜度,提升了數據管理和使用效率。

項目經驗總結

中信建投進行數字化轉型過程中已經部署了大部分的數據基礎設施,但是已有的基于Hadoop構建數據湖的體系在近兩年來暴露出眾多問題,已經無法匹配業(yè)務的發(fā)展速度。中信建投基于自身業(yè)務需求和已有技術架構情況選擇以StarRocks構建統(tǒng)一數據服務入口的實踐,為同類型券商企業(yè)提供了以下經驗建議:

1) 分析型數據庫的選型需要充分考慮企業(yè)自身的用數需求,以及現(xiàn)有數據平臺的技術架構,選擇符合自身實際情況的數據庫是獲得較好的落地效果的關鍵。例如,中信建投大部分的數據都存儲在Hive中,StarRocks提供的類Presto的外表查詢功能可以避免數據遷移增加的額外成本,同時也很好地滿足了公司的用數需求。

2) 隨著企業(yè)數據庫規(guī)模不斷增長,以及分析場景更加復雜,分析型數據庫需要不斷提升數據查詢分析的性能,以及針對固定報表、自助BI等各種應用場景,提供場景化解決方案、生態(tài)工具,才能滿足用戶在數據查詢分析方面功能和性能的復雜需求。

3. 圖數據庫

3.1傳統(tǒng)數據庫關系查詢能力不足,圖數據庫及相關解決方案加速業(yè)務洞察

在各行各業(yè)中都存在著諸多依賴個體屬性及其之間關聯(lián)信息的場景,例如社交網絡、金融風控、營銷等,需要對單體之間的關系進行識別,并對其特點進行研究。然而,要在海量的數據中,發(fā)掘個體之間隱藏的聯(lián)系,是項很復雜工作,這為企業(yè)帶來了新的挑戰(zhàn)。具體而言,企業(yè)在關聯(lián)關系的探索上,存在以下難點或需求:

傳統(tǒng)的關系型數據庫對數據關聯(lián)關系查詢的支持有限。對于一些簡單的關聯(lián)關系查詢,企業(yè)通??梢圆捎脗鹘y(tǒng)的關系型數據庫解決,但關系型數據庫在進行關聯(lián)信息檢索時需要執(zhí)行多個表的連接操作,在數據關系較復雜時,會出現(xiàn)操作繁瑣,且性能嚴重不足,導致無法查詢結果的問題。因此,關系型數據庫在實際應用中只能執(zhí)行一二度簡單關系的查詢,而不具備復雜關系查詢的能力。

企業(yè)缺少相關分析工具和解決方案來對關聯(lián)數據進行挖掘分析。在具體應用場景中,關聯(lián)關系的查詢分析,除了需要底層數據庫引擎的支撐,通常還需要結合領域知識,將關聯(lián)關系轉換為知識見解,幫助業(yè)務決策。此外,對于一些復雜的查詢分析,還需要一些AI算法來加速獲取結果。

為了解決企業(yè)在數據關系探索上的難題,針對數據關系進行高效存儲和計算的圖數據庫獲得了企業(yè)的青睞。作為典型的非結構化數據解決方案,圖數據庫將關聯(lián)數據的實體作為頂點存儲,關系作為邊存儲,突破了數據復雜關聯(lián)存儲查詢造成的性能瓶頸。同時,知識圖譜,以及圖分析算法也為圖數據的挖掘分析起到關鍵作用。圖數據庫及相關的解決方案具體包括如下三方面的內容:

圖6:圖分析解決方案賦能數據關系洞察

高性能圖數據存儲與處理引擎。圖數據庫以圖模型存儲數據,最大能高效地存儲萬億點邊的數據,有效承載了企業(yè)沉淀的海量關系信息。借助優(yōu)秀的關系傳導能力,圖數據庫能夠實現(xiàn)高效的多跳查詢,以此發(fā)掘關系型數據庫無法發(fā)現(xiàn)的深度關系;

圖算法支持高效的數據關系挖掘。借助圖算法,用戶能夠實現(xiàn)海量數據挖掘和復雜關系分析,例如最短路徑,社交網絡中心性、社區(qū)檢測、社群特征、相似性和分類等常用的圖算法,能夠幫助用戶在紛繁復雜的數據中發(fā)現(xiàn)有價值的信息,輔助進行業(yè)務決策;

知識圖譜平臺支持場景應用。為了賦能業(yè)務場景,企業(yè)在具備圖數據庫引擎的基礎上,還需要構建知識圖譜平臺,將圖的關聯(lián)關系轉化為知識,從而形成業(yè)務洞察。通常,知識圖譜平臺需要具備兩大關鍵的能力:1)知識圖譜構建,即利用圖譜構建工具,實現(xiàn)知識抽取、知識表示和知識融合,從而構建知識圖譜;2)知識推理計算,即通過推理計算引擎,結合行業(yè)知識,發(fā)現(xiàn)知識中的顯性或隱性關系。

案例3:民生銀行基于圖數據庫構建知識圖譜應用平臺,通過圖分析盤活數據資產

作為頭部股份制商業(yè)銀行,民生銀行始終堅定踐行“民營企業(yè)的銀行、敏捷開放的銀行、用心服務的銀行”的戰(zhàn)略定位,高度重視數字化轉型,主動融入數字中國建設,著力在“生態(tài)銀行”和“智慧銀行”兩大領域實現(xiàn)突破和提升,致力于為客戶提供專業(yè)特色的現(xiàn)代金融服務。

隨著金融行業(yè)數智轉型的進程加快,銀行業(yè)務數據量出現(xiàn)爆炸式增長,對金融行業(yè)的數據處理能力提出了更高要求。同時,面向海量數據的充分沉淀,挖掘數據資產的潛在價值,釋放蘊藏在數據要素中的生產力變得至關重要。對于民生銀行而言,全行業(yè)務場景眾多,由此積累了規(guī)模龐大的賬戶數據,也帶來了豐富的用戶關系信息。在此基礎上,如何選擇新的數據庫進行技術革新,賦能業(yè)務實現(xiàn)數據驅動的決策,成為民生銀行內部一項重要的發(fā)展課題。具體而言,民生銀行需要采用新的數據技術解決以下難題:

1) 對大規(guī)模的業(yè)務數據進行高效的關聯(lián)關系分析與挖掘。風險控制和營銷作為銀行兩大重要業(yè)務發(fā)展手段,需要對海量用戶數據進行深度關聯(lián)關系挖掘,以識別潛在風險、了解客戶偏好。在傳統(tǒng)的關系型數據庫中,數據被存儲在二維表中,使用關系模型檢索需要執(zhí)行多個表的連接操作,在深度關系挖掘能力與數據處理性能上表現(xiàn)嚴重不足;

2) 對行內數據拉通整合,進行統(tǒng)一的查詢分析。民生銀行內部各個業(yè)務系統(tǒng)較為多元,但是未在數據層面打通,各個業(yè)務之間相對獨立,并未建立關聯(lián)關系。此外,業(yè)務人員缺少統(tǒng)一的應用平臺對多元化的業(yè)務進行全局聯(lián)通分析,數據管理分散,無法站在全局的視野分析業(yè)務變化,進行實時決策;

3) 底層數據基礎設施的研發(fā)難度和成本較大,需要在解決技術難題的基礎上滿足大型企業(yè)要求的高可用、多租戶、權限管理等能力需求。此外,隨著國家信創(chuàng)政策日益嚴格,金融業(yè)作為國家經濟命脈,必須充分實現(xiàn)關鍵數據基礎設施的國產化,具備數據庫系統(tǒng)的安全可控性,保障信息安全。

基于Galaxybase圖數據庫構建知識圖譜應用平臺,賦能銀行業(yè)務升級

數字化轉型需求驅動下,民生銀行需要挖掘數據關聯(lián)關系,發(fā)揮數字資產價值,更好地提升風控、營銷等核心業(yè)務能力。因此民生銀行決定通過招標建設知識圖譜應用平臺,通過綜合考慮大規(guī)模的關聯(lián)關系查詢、多元化數據拉通整合、底層技術自主可控以及廠商技術領先性和實踐經驗等因素,最終創(chuàng)鄰科技從眾多圖數據庫廠商中脫穎而出。

創(chuàng)鄰科技是國內領先的商業(yè)化高性能分布式圖數據庫供應商,在分布式數據存儲、大數據并行處理、圖挖掘等領域有業(yè)界領先的技術儲備。創(chuàng)鄰科技聚焦金融板塊,目前已成功服務五大行、頭部股份制銀行以及城商行、農商行等企業(yè)用戶,核心產品Galaxybase國產高性能圖平臺已累計支持數萬億點邊的大型金融圖譜應用,性能國際領先。

圖7:基于Galaxybase圖數據庫構建的“萬象”知識圖譜應用平臺

在創(chuàng)鄰科技的幫助下,民生銀行以大數據、人工智能技術為基礎,引入Galaxybase圖數據庫構建“萬象”知識圖譜應用平臺,提供信息展示和交互式分析,具備本體建模、圖譜構建、圖譜挖掘、知識服務的一站式全流程應用能力,助力民生銀行業(yè)務升級。具體而言,基于Galaxybase圖數據庫的“萬象”知識圖譜應用平臺使民生銀行具備了以下能力:

1)借助Galaxybase圖數據庫的圖譜可視化和關系挖掘能力,民生銀行能夠基于圖譜對各類信息拉通聚合,進行關聯(lián)關系挖掘,提供信息展示和交互式分析功能。以構建企業(yè)全息圖譜為例,通過引入行外的全量工商、司法、知識產權等復雜數據且對企業(yè)的多重關系進行分析和挖掘,能夠實現(xiàn)關聯(lián)信息的高效聚合,直觀呈現(xiàn)復雜客戶關系網絡,簡化業(yè)務分析難度。

2)圖技術的形態(tài)識別和關系傳導能力可以在反欺詐業(yè)務中發(fā)揮重要作用,依托Galaxybase圖數據庫所具備的實時數據處理與圖構建能力,“萬象”知識圖譜平臺能對信貸申請件數據進行實時組網,通過設備信息、地理位置信息、黑樣本、轉賬等關聯(lián)關系識別定位欺詐團伙,并且結合傳統(tǒng)欺詐特征和網絡特征進行機器學習對申請條件評分,有效識別欺詐申請,進行及時預警,實時攔截欺詐風險,避免欺詐損失。

3)基于圖神經網絡的知識推理,“萬象”知識圖譜平臺能夠提升銀行的營銷能力。通過對涵蓋個人客戶的銀行客群建立經營分析圖譜,“萬象”知識圖譜平臺可以基于用戶關系鏈進行社群關系推理,利用種子賬戶所在社群觸達全新用戶并實現(xiàn)拉新,由社群觸達的新成員,還能夠以不同的速度、方式和幅度進行裂變傳播,有效解決傳統(tǒng)客戶管理系統(tǒng)獲客難的問題,達成“快速實現(xiàn)賬戶增長,低成本輕松獲客”的目標。

為了滿足數據聯(lián)通整合的需求,民生銀行基于Galaxybase圖數據庫對行內外跨部門、跨產品、跨業(yè)務線中的實體及元數據信息進行了整合。同時,平臺配備可視化圖分析平臺,業(yè)務人員無需編程技能即可通過可視化圖形配置界面構建知識圖譜、部署圖算法、執(zhí)行計算并展示結果。

此外,Galaxybase圖數據庫具備企業(yè)級特性,通過主備集群能力支持數據庫高可用,并且提供企業(yè)級的運維管理和安全監(jiān)控能力,支持點邊類型和屬性的細粒度權限管理。在信創(chuàng)方面,Galaxybase圖數據庫為國產自研產品,能夠滿足金融行業(yè)對數據技術安全自主可控的要求。

“萬象”知識圖譜平臺落地后的效果與價值

第一, 打破數據孤島,支撐海量數據的實時分析與關聯(lián)價值挖掘。通過構建“萬象”知識圖譜應用平臺,民生銀行能對行內外跨部門、跨產品、跨業(yè)務線中的實體及元數據信息進行整合,構建多觸點、全維度的可視化關聯(lián)信息圖譜,提供360°全景可視化視圖,破除數據孤島。同時,“萬象”知識圖譜平臺底層采用的分布式架構支持動態(tài)在線擴容,新進的業(yè)務數據也能夠實時入網,業(yè)務人員能夠結合不同的場景利用知識圖譜進行實時決策。

第二, 圖譜可視化技術為用戶提供業(yè)務全流程數據關系展現(xiàn)?!叭f象”知識圖譜平臺能夠為業(yè)務系統(tǒng)輸出圖查詢、關聯(lián)和計算能力,同時為業(yè)務分析人員提供全息圖譜,提升內外數據關聯(lián)分析能力;針對研發(fā)人員,則提供數據關聯(lián)關系分析平臺,分析挖掘環(huán)境更加便利,可實現(xiàn)便捷的可視化建模。最后,“萬象”知識圖譜平臺能夠為業(yè)務沉淀出一系列可視化數據產品,實現(xiàn)全流程業(yè)務能力升級。

第三, 強勁的多跳查詢性能幫助銀行實現(xiàn)實時深挖隱藏關聯(lián)關系。依托于Galaxybase原生分布式并行圖數據庫可以極快地處理復雜的多跳關聯(lián)關系,“萬象”知識圖譜應用平臺能夠對于銀行的海量業(yè)務數據進行多跳查詢,挖掘查找數據間的異常關聯(lián)關系,因此能夠快速對傳統(tǒng)方法不能找到的風險進行預判和警報,完美契合銀行的反洗錢、反欺詐、對公信貸等業(yè)務。

項目經驗總結

在數字經濟時代,為了實現(xiàn)數據價值的充分釋放,就需要將數據進行關聯(lián),從單純的數據管理轉變?yōu)閿祿P系的挖掘、分析和利用。民生銀行引入創(chuàng)鄰科技Galaxybase圖平臺建設知識圖譜應用平臺的實踐,為同類型的業(yè)務場景提供了以下圖數據庫及相關應用的選型和使用經驗:

1)關注圖數據庫底層技術支撐能力。銀行業(yè)務數字化的快速發(fā)展一定會造成行內數據量爆發(fā)式增長,銀行企業(yè)在選擇圖數據庫時一定要考慮在超大數據規(guī)模下的底層數據庫支撐能力,要能夠在不降低查詢和計算性能的情況下高效實現(xiàn)知識圖譜的構建;同時,對于關聯(lián)關系的深度挖掘,銀行企業(yè)需要關注圖數據庫的多跳查詢性能,能夠實時挖掘復雜關系是關鍵。

2)重視信創(chuàng)政策,推進底層國產化替代。對于金融機構而言,實現(xiàn)底層數據基礎設施的國產化有助于保證整體系統(tǒng)安全穩(wěn)定地運行,而且數據庫及其配套應用需要不斷迭代和適配來滿足未來業(yè)務場景的拓展,建議各銀行在招標過程中將圖數據庫的國產技術和圖應用解決方案綜合實力納入考慮,旨在減少后續(xù)更換底層數據庫的潛在風險和成本。

4. 超融合數據庫

4.1企業(yè)多元化快速發(fā)展,超融合數據庫在單一技術棧上滿足各業(yè)務需求

在數字化轉型的驅動下,中大型企業(yè)在復雜多樣的業(yè)務場景下沉淀了海量多源異構的數據,而且由于業(yè)務持續(xù)擴張增長的趨勢,部分企業(yè)需要不斷加強數字化建設的力度來匹配業(yè)務的發(fā)展速度。在這種情況下,中大型企業(yè)現(xiàn)有的數據庫解決方案在企業(yè)需求的增長下變得愈發(fā)難以為繼。具體而言,業(yè)務的極速發(fā)展和數字化帶來數據規(guī)模膨脹、數據類型多樣化使得現(xiàn)有的數據庫設施遇到了以下方面的難題:

圖8:大數據量、多數據類型帶來的數據庫使用問題

1. 承載數據類型有限。業(yè)務場景的拓展帶來了更加復雜的數據類型,企業(yè)需要對異構的數據進行高效存儲以便后續(xù)查詢分析,而傳統(tǒng)的關系型數據對非結構化數據的承載能力有限。通過引入專用的非結構化數據庫,企業(yè)雖然可以存儲與之相對應的非結構化數據,但是卻造成數據庫系統(tǒng)分散獨立的情況,難以統(tǒng)一維護管理,從而帶來額外的運維成本。

2. 海量數據查詢遇到數據庫性能的瓶頸。隨著大型企業(yè)快速發(fā)展帶來的數據規(guī)模膨脹以及查詢復雜度的提升,原有數據庫在響應速度上難以滿足企業(yè)實時查詢分析的需求,從而導致業(yè)務運轉停頓或無法進行數據決策。

為了解決企業(yè)在業(yè)務快速發(fā)展過程中遇到的多數據類型和性能方面的難題,超融合數據庫是在內核層面采用模塊化和插件化的架構,通過插拔不同類型的數據引擎,實現(xiàn)對不同模型數據進行處理能力的數據庫。超融合數據庫能夠支持用戶在一套系統(tǒng)中統(tǒng)一處理關系、圖、時序、文檔等多種模型的數據,簡易的架構不會為企業(yè)增加過多的運維管理成本。同時,超融合數據庫具備與常見的專用數據庫或大數據引擎同等或更好的性能表現(xiàn)。具體而言,超融合數據庫為企業(yè)帶來了以下優(yōu)勢:

圖9:超融合數據庫支持多類型數據,單一架構簡化運維

1. 支持多種類型數據。超融合數據庫在單一架構上實現(xiàn)了多模態(tài)數據的融通管理,通過部署適用于不同數據類型的存儲和計算引擎,超融合數據庫實現(xiàn)了多種異構數據,例如結構化數據、時序數據、圖數據等,的統(tǒng)一寫入、存儲和管理。

2. 簡化運維。超融合數據庫采用創(chuàng)新性架構,利用模塊化的引擎來支持不同類型數據的存儲和計算,避免了引入多種專用數據庫造成系統(tǒng)冗余的情況。此外,超融合數據庫使用統(tǒng)一的應用訪問接口和優(yōu)化器簡化系統(tǒng)架構,在有效支撐業(yè)務發(fā)展的前提下,極大減少了數據庫的運維成本。

3. 查詢分析性能提升。超融合數據庫相比常見的大數據引擎具備更強的性能表現(xiàn),在單表查詢、復雜SQL運算等能力上均有顯著的提升。此外,超融合數據庫還針對不同類型數據的處理需求進行優(yōu)化,以獲得比常見專用數據庫更強的性能表現(xiàn)。總體而言,強勁的性能表現(xiàn)能夠縮短數據庫服務響應時間,能夠使業(yè)務運行更加流暢,及時支撐實時決策。

案例4:某新能源頭部制造企業(yè)基于超融合數據庫打造“數據湖倉平臺”,支撐企業(yè)高速發(fā)展

伴隨近年來新能源汽車在全球范圍內的銷量劇增,處于新能源汽車產業(yè)鏈重要位置的國內某頭部制造企業(yè)也迎來了業(yè)務的快速發(fā)展。為了提高產能,并降本增效,該企業(yè)需要不斷加強數字化建設,以支撐全球產品溯源追蹤、生產及售后運營分析、設備預測性維護等多項業(yè)務。

然而,隨著該企業(yè)業(yè)務規(guī)模的迅速擴張,其需要處理的數據規(guī)模急劇膨脹,數據類型也比以往更加復雜,導致該企業(yè)原先基于MySQL、Greenplum構建的數據庫系統(tǒng)面臨顯著的性能和功能瓶頸,也給該企業(yè)的業(yè)務開展帶來以下挑戰(zhàn):

1)原有數倉集群遭遇性能瓶頸,維護擴容復雜,難以應對業(yè)務快速增長需求。

隨著業(yè)務的快速擴展,帶來數據規(guī)模的快速增長,以及查詢復雜度快速提升,原有集群的 CPU 使用率長期維持高位運行,導致計算和查詢作業(yè)長時間排隊,致使業(yè)務間歇性卡頓,部分大型報表的等待時間甚至超過30 分鐘,嚴重影響了業(yè)務的運行效率和使用體驗。另一方面,原有數倉平臺的擴容也需要伴隨較長時間的停機等待,同時不支持數據的分層存儲管理,這使得對原有平臺進行不斷擴容,在時間和成本上都不可持續(xù)。

2)智能制造亟待擴充復雜時序處理及分析能力。

該企業(yè)作為大型制造業(yè)集團,也在積極探索智能制造的轉型創(chuàng)新,而首要的是對廣大的生產裝備進行數字化升級,這帶來廣泛的 IoT 場景需求。在其整體數據結構中,除了由常見的 MES、ERP 系統(tǒng)所產生的關系型數據,還有由數采單元面向設備、物料和流程采集到的時序、GIS 等類型數據,比如涵蓋近百個指標的生產制造設備工況數據、已售出產品的運行數據以及歷史維修數據等。目前架構中是通過 MySQL 和 Greenplum 來承載時序數據,但 MySQL 及 Greenplum 并不具備專門針對時序場景的強化特性及功能,數據承載力和查詢能力都十分有限:

? 寫入性能:無法承載超大設備帶來的海量數據寫入負載;

? 寫入功能:無法支持動態(tài)、亂序、延遲寫入,以應對復雜工況下的數據產生環(huán)境;

? 查詢能力:點查詢性能有限,沒有窗口查詢、庫內機器學習等。

3)數據量倍數增張,總部中心集群負載壓力大

目前,該企業(yè)集團在全國擁有數十家分支生產基地,每個生產基地的產線系統(tǒng)都需要高性能及可靠穩(wěn)定的數據管理系統(tǒng)。面向未來,預期整個集團將持續(xù)以倍數級擴充產能,產線數據量將翻倍增長,對數據管理的承載力、效率、成本和易用性都提出了更高標準。

目前所有數據直接進入總部,對總部集群造成很大負載壓力。除了持續(xù)擴容外,在不增加太多運維復雜度的基礎上,客戶迫切希望建立一套總分結合的“總部(云)+工廠(邊)”協(xié)同架構,在增強整體數據承載能力的同時,也優(yōu)化各子公司的數據平臺能力,實現(xiàn)對整體數據管理與治理能力的升級。

基于超融合數據庫,實現(xiàn)一套系統(tǒng)滿足企業(yè)多種類型數據存儲與處理需求

為了滿足對大規(guī)模、多源異構數據的存儲與處理需求,該企業(yè)需要引入新的數據基座來替換原先的MySQL、Greenplum數據庫。在此過程中,該企業(yè)考慮過Hadoop技術棧,但基于Hadoop技術棧滿足業(yè)務需求,需要同時構建非常復雜的開發(fā)和運維體系,成本過高。

由于YMatrix超融合數據庫具備高性能、支持多種數據類型、運維簡單等優(yōu)勢,便成為了該企業(yè)的的最終選擇。

YMatrix成立于 2020 年,是一家創(chuàng)新型基礎軟件公司,致力于物聯(lián)網時代新一代數據基礎設施軟件的研發(fā),并提供相關產品、解決方案及一站式商業(yè)服務。公司在業(yè)界率先提出超融合數據庫理念,并發(fā)布了 YMatrix 超融合數據庫,基于獨創(chuàng)的多微內核開放架構,在單一數據庫之上,實現(xiàn)多模態(tài)數據的融通管理,及全場景查詢分析的統(tǒng)一支持。YMatrix超融合數據庫可面向物聯(lián)網應用、工業(yè)互聯(lián)網、智能運維、智慧城市、智能家居、車聯(lián)網等場景,提供架構簡潔、功能豐富的數據基礎設施,并已在多家行業(yè)頭部公司成功實現(xiàn)商業(yè)化落地。

圖10:某新能源頭部制造企業(yè)基于超融合數據庫打造的“數據湖倉平臺”

YMatrix超融合數據庫在該企業(yè)內替代了原先的MySQl、Greenplum等數據庫,在支持多種類型數據的存儲、匯集與管理的同時,通過全面的功能承接了各類業(yè)務需求。具體而言,YMatrix超融合數據庫的以下功能特性解決了該企業(yè)此前存在的各種問題:

1)支持多種數據。由YMatrix超融合數據庫承建數據湖倉平臺,對接產線MES系統(tǒng)、ERP系統(tǒng)及給類型生產設備數采系統(tǒng)等,將TP業(yè)務數據、時序數據、GIS數據、JSON文本數據,以及過去的歷史數據等等多種數據,統(tǒng)一進行寫入、存儲、管理,支持數據亂序、延遲寫入,支持ACID以確保數據完整性;

2)提供統(tǒng)一的查詢。YMatrix超融合數據庫通過標準SQL提供多類型數據查詢,在數據湖內實現(xiàn)數據的跨類型聯(lián)合分析,而無需再并行建設專門的技術棧;

3)支持庫內機器學習。YMatrix超融合數據庫支持庫內機器學習建模,可代替Flink + Spark,使算法建模及計算在YMatrix集群內實現(xiàn),無需大規(guī)模的數據ETL過程,大幅簡化系統(tǒng)架構,且性能大幅提升,算法分析工作效率提升10倍;

4)較高的查詢性能。YMatrix超融合數據庫針對寫入和分析等重點領域進行了多達138項深度的指令級的優(yōu)化,能夠在單表查詢、多表關聯(lián)分析、時序數據查詢等常用場景上獲得比主流專用數據庫更高的性能。

5)簡化運維。YMatrix超融合數據庫技術架構簡化靈活,運維人員需要管理的技術棧變少,因此從根源上降低了其運維復雜度。同時,YMatrix超融合數據庫提供大量圖形化及自動化的運維能力,包括:在線擴容、自動數據平衡、數據生命周期管理、運維監(jiān)控等,幫助用戶降低操作門檻、獲得更好的使用體驗以及更加自動化的作業(yè)能力。

此外,為了降低總部中心集群負載壓力,YMatrix為該企業(yè)建設了邊緣數倉,即在分支工廠部署獨立數倉平臺,承載工廠的 MES、ERP、PLM 等各系統(tǒng)數據,完成這些生產數據在本級的數據歸集,同時進行預處理查詢分析,篩選出符合總部需要的數據后再上傳總部集群。新構建的“總部(云)+ 工廠(邊)”協(xié)同架構,在強化本地數據就近處理的能力之上,有效降低了集團集群的負載,為后期業(yè)務的長期穩(wěn)定運行及良性擴展奠定架構基礎。

超融合數據庫落地后的價值與效果

第一, 性能大幅提升,為應對業(yè)務量大規(guī)模擴張奠定基礎。在使用YMatrix超融合數據庫后,該企業(yè)解決了原有集群性能不足、擴容服務器耗時長、報表查詢等待過久等各項問題,查詢耗時最高縮短79%,為平臺支撐的各項業(yè)務服務體驗提供充沛的性能支持。

第二, 為數智化創(chuàng)新提供新一代通用數據基座,并提供更友好的使用體驗,大幅降低運維復雜度。通過 YMatrix超融合數據庫,支持多模態(tài)數據的全場景查詢分析需求,能夠服務企業(yè)級用戶未來 5-10 年可能存在的需求,幫助該企業(yè)避免了產品疊加或技術架構反復調整帶來的技術風險和不必要成本。同時,YMatrix超融合數據庫通過數據超融合能力大幅精簡了系統(tǒng)架構,并供大量圖形化及自動化的運維能力,從而降低了數據庫的運維復雜度,讓用戶工作更加專注,作業(yè)更加高效。

第三, 數據管理成本獲得有效控制,同時降低總部集群的壓力。YMatrix超融合數據庫在為?數據平臺帶來了上述優(yōu)化與新功能的同時,在保證性能滿?需求的前提下,使得該企業(yè)每年在資源上的成本開銷減少了?少30%。同時,通過搭建更科學經濟的“總部(云)+ 工廠(邊)”協(xié)同架構,減少數據傳輸成本的同時,降低因組織結構龐大、產能持續(xù)壯大給總部集群帶來的壓力。

項目經驗總結

當前,中國正在從“制造大國”向“制造強國”轉型,與此同時,一批代表著戰(zhàn)略新興行業(yè)方向的制造業(yè)企業(yè)在市場需求以及政策推動下,正處在高速發(fā)展過程中。為了實現(xiàn)這樣的目標,數智化在其中將會起到關鍵支撐作用。我們認為,上述新能源頭部制造企業(yè)與YMatrix合作的案例,可以為同樣處于快速發(fā)展階段的制造業(yè)企業(yè)帶來以下借鑒意義:

第一, 數據基座的選型需要超前考慮中長期的業(yè)務發(fā)展需求。隨著企業(yè)業(yè)務的快速發(fā)展,企業(yè)內部數據量必然迅速增長,數據類型也將變得更加復雜。由于數據庫等基礎設施的遷移是項成本非常高昂的工作,企業(yè)在選型時需要充分評估未來5-10年的業(yè)務需求,選擇能夠應對中長期數據存儲和處理需求的數據基座。

第二, 為避免傳統(tǒng)方案復雜的開發(fā)和運維,企業(yè)可以考慮創(chuàng)新性的超融合數據庫。盡管市場上有一些大數據方案能夠滿足企業(yè)各類復雜的數據存儲和處理需求,如Hadoop技術棧,但面對企業(yè)復雜的需求,其開發(fā)和運維也非常復雜。超融合數據庫在簡化系統(tǒng)架構的同時,具備支持多種數據類型、性能高、運維簡單等優(yōu)勢,是處于快速發(fā)展階段的企業(yè)非常理想的選擇。

5. 結語

從本報告所挑選的多個案例中,我們可以看到,看似已經非常成熟的數據庫市場,在各個細分方向一直在適應企業(yè)不斷變化的需求,往更強的性能、更豐富的功能,更簡化的使用和運維的方向進化,并且這個趨勢還在延續(xù)當中。

而對于每個企業(yè)而言,當它們在對數據基礎設施進行規(guī)劃,對數據庫升級換代時,需要結合企業(yè)內部情況權衡多方面的問題。既要對業(yè)務需求進行全局思考,選擇能夠適應企業(yè)未來發(fā)展的技術架構,也要結合企業(yè)現(xiàn)階段數據基礎,滿足在性能、功能、運維等各方面要求的同時,選擇成本更低、使用更簡單的數據庫方案。

來源:號外網


責任編輯:侯哲
熱門評論
互聯(lián)網新聞信息服務許可證10120170072
京公網安備 11010502045281號
違法和不良信息舉報電話:010-65669841
舉報郵箱:xxjb@huaxia.com

網站簡介 / 廣告服務 / 聯(lián)系我們

主辦:華夏經緯信息科技有限公司   版權所有 華夏經緯網

Copyright 2001-2024 By skhuanbao.cn