近日,OSCHINA 和 Gitee 聯(lián)合發(fā)布了《2022 中國(guó)開源開發(fā)者報(bào)告》。
其中“前沿開源技術(shù)領(lǐng)域解讀” 部分,多位在其領(lǐng)域有所建樹的一線開發(fā)者和開源商業(yè)化公司創(chuàng)始人,對(duì)目前國(guó)內(nèi)外流行的前沿開源技術(shù)領(lǐng)域過(guò)去的發(fā)展和未來(lái)的趨勢(shì)進(jìn)行了深入的洞察,覆蓋開源云原生、開源 AI、開源大前端、開源大數(shù)據(jù)、開源 DevOps、RISC-V、開源操作系統(tǒng)、開源數(shù)據(jù)庫(kù)、編程語(yǔ)言九大領(lǐng)域。
本篇為開源大數(shù)據(jù)領(lǐng)域的解讀。
近幾年,數(shù)據(jù)技術(shù)快速發(fā)展,技術(shù)棧逐漸成熟,從新一代數(shù)據(jù)源體系到數(shù)據(jù)處理體系,再到數(shù)據(jù)分析、AI 算法體系,數(shù)據(jù)技術(shù)逐步相互融合、相互支持形成有機(jī)整體。OLAP、數(shù)據(jù)湖、數(shù)據(jù)集成、DataOps、MLOps 等領(lǐng)域變得更加火熱。未來(lái),大數(shù)據(jù)技術(shù)會(huì)沿著異構(gòu)計(jì)算、批流融合、云化、兼容AI、內(nèi)存計(jì)算等方向持續(xù)更迭。
新一代數(shù)據(jù)棧將逐步替代國(guó)內(nèi)單一“數(shù)據(jù)中臺(tái)”
2021 年,美國(guó)硅谷最火爆的詞匯就是現(xiàn)代數(shù)據(jù)棧(Modern Data Stack,簡(jiǎn)稱 MDS),它們是以云原生、開源為背景的一系列全新數(shù)據(jù)技術(shù)引擎。相對(duì)于傳統(tǒng)的閉源、私有化的數(shù)據(jù)技術(shù)來(lái)講,現(xiàn)代數(shù)據(jù)棧憑借其開放性及公有云的 SaaS 服務(wù)快速得到了大量企業(yè)用戶的認(rèn)可。
現(xiàn)代數(shù)據(jù)棧分為若干層次,每個(gè)層次相互支持,相互協(xié)助,形成一個(gè)有機(jī)的整體。企業(yè)使用的時(shí)候,很容易就能利用 SaaS 模式將其整合到一起解決企業(yè)數(shù)據(jù)問題。而開源模式,又給 MDS 生態(tài)加入了新的活力,快速發(fā)展社區(qū)的同時(shí)讓上下游快速出現(xiàn)新的合作。
近幾年,國(guó)內(nèi)出現(xiàn)了大量的開源數(shù)據(jù)技術(shù)。2022 年,這些技術(shù)形成了具有上下游的有機(jī)集合體,從新一代數(shù)據(jù)源體系到數(shù)據(jù)處理體系,再到數(shù)據(jù)分析、AI 算法體系,逐步相互融合、相互支持形成有機(jī)整體。可以看到,國(guó)內(nèi)新一代的數(shù)據(jù)棧在支持云原生技術(shù)基礎(chǔ)上,還支持私有云/公有云部署,用新一代的計(jì)算引擎、算法、調(diào)度、同步機(jī)制來(lái)支持新一代的數(shù)據(jù)基礎(chǔ)建設(shè)。
這些新一代技術(shù)棧的流行和商業(yè)工具生態(tài)的整合,將逐步替代國(guó)內(nèi)單一“數(shù)據(jù)中臺(tái)”服務(wù)四五個(gè)領(lǐng)域的局面。這變得跟美國(guó)類似——若干家各自領(lǐng)域的專業(yè)企業(yè)相互集成,最終給用戶提供高效且靈活的專業(yè)解決方案。
同時(shí),我也高興看到,這些開源現(xiàn)代數(shù)據(jù)棧中很多的商業(yè)公司,正在美國(guó)、歐洲快速建立社區(qū)、SaaS 和相關(guān)的商業(yè)服務(wù),也有一些公司已經(jīng)和全球的開源現(xiàn)代技術(shù)棧公司進(jìn)行競(jìng)爭(zhēng)。整體上,來(lái)自國(guó)內(nèi)的新一代的開源現(xiàn)代數(shù)據(jù)棧(Open-source MDS)現(xiàn)在剛剛興起。我相信,國(guó)內(nèi)具有大量?jī)?yōu)秀的開發(fā)者、豐富的場(chǎng)景和大量的數(shù)據(jù)基礎(chǔ),一定會(huì)有若干家卓越的開源商業(yè)公司出現(xiàn),最終在全球開源現(xiàn)代數(shù)據(jù)棧中有一席之地!
郭煒
Apache 基金會(huì)成員,Apache 孵化器導(dǎo)師,ClickHouse 華人社區(qū)創(chuàng)始人, Apache Dolphin Scheduler PMC,Apache SeaTunnel(incubating) 導(dǎo)師。郭煒先生畢業(yè)于北京大學(xué),曾任易觀 CTO,聯(lián)想研究院大數(shù)據(jù)總監(jiān),萬(wàn)達(dá)電商數(shù)據(jù)部總經(jīng)理,先后在中金、IBM、Teradata 任大數(shù)據(jù)方重要職位,對(duì)大數(shù)據(jù)前沿研究做出卓越貢獻(xiàn)。同時(shí)郭先生參與多個(gè)技術(shù)社區(qū)工作,Presto、 Alluxio、Hbase 等,是國(guó)內(nèi)開源社區(qū)領(lǐng)軍人物。
數(shù)據(jù)湖與 LakeHouse 依然炙手可熱
2022 年,數(shù)據(jù)湖與 LakeHouse 依然是炙手可熱的話題。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名開源項(xiàng)目的帶動(dòng)下,國(guó)內(nèi)的一些基礎(chǔ)軟件公司也開始在數(shù)據(jù)湖開源領(lǐng)域積極布局,代表有網(wǎng)易數(shù)帆開源的湖倉(cāng)管理系統(tǒng) Arctic,阿里云開源的流式數(shù)倉(cāng) Flink Tablestore;另一方面,一些傳統(tǒng)架構(gòu)的開源數(shù)倉(cāng)軟件,以及閉源的數(shù)據(jù)分析引擎,也開始積極擁抱開放的數(shù)據(jù)湖格式,標(biāo)志性事件如 Snowfake 可以對(duì)接 Delta 和 Iceberg,Doris 系的開源數(shù)倉(cāng)可以查詢 Iceberg 數(shù)據(jù)。
在眾多開源項(xiàng)目與頭部企業(yè)的帶動(dòng)下,行業(yè)和市場(chǎng)相比去年對(duì) LakeHouse 的價(jià)值認(rèn)知有了長(zhǎng)足進(jìn)步。
目前,用戶切入 LakeHouse 主要有兩點(diǎn):一是數(shù)據(jù)湖上云,公有云的對(duì)象存儲(chǔ)與私有化的 Hadoop 在一些功能上有較大不同,比如 list 和 rename 接口的性能缺陷,導(dǎo)致用戶在把圍繞 Hadoop 構(gòu)建的數(shù)倉(cāng)體系遷往云端時(shí)需要應(yīng)對(duì)各種問題,而以 Iceberg 為代表的新型表格式在使用上天然不依賴這些接口,并且提供了 ACID、模式演進(jìn)等高階特性,為用戶提供了更好的上云方案;二是數(shù)據(jù)處理的流批一體,新型數(shù)據(jù)湖格式的快照機(jī)制對(duì)流更加友好,可以將數(shù)據(jù)湖拓展到更多流計(jì)算場(chǎng)景,甚至演進(jìn)到流式湖倉(cāng)的場(chǎng)景,實(shí)現(xiàn)實(shí)時(shí)數(shù)倉(cāng)和離線數(shù)倉(cāng)在湖倉(cāng)上的統(tǒng)一。
但需要承認(rèn)的是,LakeHouse 這項(xiàng)技術(shù)還沒有瓜熟蒂落,尤其在流批一體方面,依然有很多想象空間。在 Gartner 技術(shù)成熟度曲線中,LakeHouse 處于期望膨脹期的臨界點(diǎn),距離主流市場(chǎng)采納還需要 2-5 年的時(shí)間。得益于數(shù)據(jù)湖天然的體量和成本優(yōu)勢(shì),可以預(yù)見當(dāng) LakeHouse 成為標(biāo)準(zhǔn)技術(shù)方案時(shí),它將給企業(yè)的數(shù)字化轉(zhuǎn)型帶來(lái)極具意義的變革。
馬進(jìn)
網(wǎng)易數(shù)帆大數(shù)據(jù)實(shí)時(shí)計(jì)算技術(shù)專家、湖倉(cāng)一體項(xiàng)目負(fù)責(zé)人,負(fù)責(zé)網(wǎng)易集團(tuán)分布式數(shù)據(jù)庫(kù)、數(shù)據(jù)傳輸平臺(tái)、實(shí)時(shí)計(jì)算平臺(tái)、實(shí)時(shí)數(shù)據(jù)湖等項(xiàng)目,長(zhǎng)期從事中間件、大數(shù)據(jù)基礎(chǔ)設(shè)施方面的研究和實(shí)踐,目前帶領(lǐng)團(tuán)隊(duì)聚焦于流批一體、湖倉(cāng)一體的平臺(tái)方案和技術(shù)演進(jìn),及流式湖倉(cāng)服務(wù) Arctic 項(xiàng)目開源。
數(shù)據(jù)技術(shù)快速更迭, DataOps 應(yīng)運(yùn)而生
今年的大數(shù)據(jù)發(fā)展如火如荼,OLAP、數(shù)據(jù)湖、數(shù)據(jù)集成、DataOps、MLOps 等領(lǐng)域非常火熱,企業(yè)數(shù)字化、數(shù)智化發(fā)展十分蓬勃,開源原生公司發(fā)展迅速,數(shù)據(jù)湖三劍客 Apache Iceberg、Apache Hudi 加上 DataBricks 主導(dǎo)的 Delta Lake 都已經(jīng)有商業(yè)化公司的助力。數(shù)據(jù)領(lǐng)域的估值愈發(fā)突起,比如 DBT Labs 估值已經(jīng)達(dá)到 40 多億美金,Airbyte 估值已經(jīng) 15 億美金。國(guó)內(nèi)以天謀科技、思斐、SelectDB、白鯨開源為代表的大數(shù)據(jù)開源原生公司開始展露頭角。
數(shù)據(jù)技術(shù)正在快速迭代,且迭代速度比以往任何時(shí)候都更快,每年新誕生的技術(shù)多達(dá)幾十種,在此的背景下,DataOps 應(yīng)運(yùn)而生。DataOps 圍繞云原生、敏捷智能化、多云能力等方向重構(gòu)現(xiàn)代數(shù)據(jù)技術(shù)棧,涵蓋了現(xiàn)代數(shù)據(jù)處理的整個(gè)生命周期,包括數(shù)據(jù)采集、數(shù)據(jù)加工(ELT/ETL)、數(shù)據(jù)集成、數(shù)據(jù)安全、數(shù)據(jù)治理等多個(gè)方面,利用 DataOps 可以高效打造現(xiàn)代數(shù)據(jù)智能高速公路。
根據(jù) Gartner 的總結(jié),我們來(lái)看一下 DataOps 在數(shù)據(jù)運(yùn)營(yíng)體系關(guān)鍵要素中的作用:
(1)流程控制:在 DataOps 中,自動(dòng)化測(cè)試和統(tǒng)計(jì)流程控制在數(shù)據(jù)管道的每一步運(yùn)行,過(guò)濾和消除數(shù)據(jù)錯(cuò)誤,這些數(shù)據(jù)錯(cuò)誤會(huì)破壞分析,并產(chǎn)生大量計(jì)劃外工作影響生產(chǎn)效率。
(2)變更管理:DataOps 關(guān)注的是跟蹤、更新、同步、集成和維護(hù)驅(qū)動(dòng)數(shù)據(jù)分析管道的代碼、文件和功能組件。
(3)并行開發(fā):DataOps 組織并劃分?jǐn)?shù)據(jù)開發(fā)各個(gè)階段,以便團(tuán)隊(duì)成員可以高效地協(xié)同工作,而不會(huì)發(fā)生資源沖突。
(4)虛擬化技術(shù)環(huán)境:DataOps 會(huì)虛擬化技術(shù)環(huán)境,以便將開發(fā)與生產(chǎn)隔離。虛擬化可以讓業(yè)務(wù)創(chuàng)新更輕松地通過(guò)開發(fā)流程,并快速流向生產(chǎn)環(huán)境。當(dāng)需要時(shí),數(shù)據(jù)分析師可以快速啟動(dòng)一個(gè)開發(fā)環(huán)境,其中包括所需的工具、安全訪問、數(shù)據(jù)、代碼。
(5)復(fù)用:DataOps 支持復(fù)用模型,標(biāo)準(zhǔn)化被廣泛使用的功能和分析組件,并簡(jiǎn)化虛擬環(huán)境之間的遷移。
(6)響應(yīng)能力和靈活性:DataOps 設(shè)計(jì)數(shù)據(jù)分析管道以適應(yīng)不同的運(yùn)行時(shí)情況。這種靈活性使分析能夠更好地響應(yīng)組織的需求和不斷變化的優(yōu)先級(jí)。
(7)快速變化:DataOps 將構(gòu)建技術(shù)環(huán)境,以實(shí)現(xiàn)盡可能短的開發(fā)周期時(shí)間,同時(shí)滿足數(shù)據(jù)使用者的要求。DataOps 的設(shè)計(jì)理念就是基于變革,DataOps 體系結(jié)構(gòu)將動(dòng)態(tài)數(shù)據(jù)處理能力視為 “核心思想”,而不是 “亡羊補(bǔ)牢”,做事后的更改。
(8)團(tuán)隊(duì)協(xié)同:DataOps 協(xié)調(diào)任務(wù)、角色和工作流,以打破不同數(shù)據(jù)團(tuán)隊(duì)和業(yè)務(wù)團(tuán)隊(duì)之間的障礙,以便更好地協(xié)同工作。
可以說(shuō),DataOps 是快速實(shí)踐數(shù)字化轉(zhuǎn)型的理論指導(dǎo),貫穿于現(xiàn)代數(shù)據(jù)技術(shù)棧的始末,DataOps 也是降本提效的最佳路徑,實(shí)踐 DataOps 路徑的收益立竿見影。
代立冬
白鯨開源聯(lián)合創(chuàng)始人,Apache DolphinScheduler PMC 主席,Apache SeaTunnel PPMC,Apache 基金會(huì)正式成員,Apache 孵化器導(dǎo)師,ApacheCon Asia 大數(shù)據(jù)論壇主席。
更多內(nèi)容請(qǐng)查看《2022 中國(guó)開源開發(fā)者報(bào)告》
-
開源
+關(guān)注
關(guān)注
3文章
3570瀏覽量
43399 -
內(nèi)存計(jì)算
+關(guān)注
關(guān)注
1文章
15瀏覽量
12219 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8948瀏覽量
139337 -
云原生
+關(guān)注
關(guān)注
0文章
256瀏覽量
8194
原文標(biāo)題:前沿開源技術(shù)領(lǐng)域解讀——開源大數(shù)據(jù)
文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
介紹幾大引人注目的開源大數(shù)據(jù)工具

常用大數(shù)據(jù)處理技術(shù)歸類
大數(shù)據(jù)運(yùn)用的技術(shù)
阿里巴巴高級(jí)技術(shù)專家章劍鋒:大數(shù)據(jù)發(fā)展的 8 個(gè)要點(diǎn)
螞蟻集團(tuán)基礎(chǔ)設(shè)施委員會(huì)主席何征宇:開源是核心技術(shù)戰(zhàn)略
征集令 | 首屆開放原子全球開源大賽等你來(lái)戰(zhàn)!
中國(guó)開源未來(lái)發(fā)展峰會(huì)“問道 AI 分論壇”即將開幕!
大數(shù)據(jù)開源技術(shù)大變遷
深度解讀大數(shù)據(jù)的應(yīng)用現(xiàn)狀和開源未來(lái)
解讀ArduBee開源技術(shù)背后的創(chuàng)新

《2022開源大數(shù)據(jù)熱力報(bào)告》重磅發(fā)布
開源“摩爾定律”即將打破《2022開源大數(shù)據(jù)熱力報(bào)告》云棲大會(huì)上發(fā)布
前沿開源技術(shù)領(lǐng)域解讀——開源大前端
誠(chéng)邀報(bào)名|黃向東邀您共話開源工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)

誠(chéng)邀報(bào)名|黃向東邀您共話開源工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)

評(píng)論