尊敬的 Databenders,在 Databend Labs 成立兩周年之際,我們非常高興地宣布 Databend v1.0 正式發(fā)布。Databend 社區(qū)一直在致力于解決大數(shù)據(jù)分析的成本和復(fù)雜度問(wèn)題,并正在被頂級(jí)場(chǎng)景和頂級(jí)需求所推動(dòng)。根據(jù)可統(tǒng)計(jì)信息,每天約 700TB 數(shù)據(jù)在使用 Databend 寫(xiě)入到云對(duì)象存儲(chǔ)并進(jìn)行分析,用戶(hù)來(lái)自歐洲、北美、東南亞、非洲、中國(guó)等地,每月為他們節(jié)省數(shù)百萬(wàn)美元成本。Databend v1.0 是一個(gè)具有里程碑意義的版本,我們相信它將進(jìn)一步加速云端海量數(shù)據(jù)分析的發(fā)展。
今天,我將首先介紹 Databend v1.0 相比 v0.9 版本所做的改進(jìn),然后探討我們團(tuán)隊(duì)的愿景和未來(lái)展望。現(xiàn)在就讓我們開(kāi)始吧!
v1.0改進(jìn)
Databend 在版本 v1.0 中實(shí)現(xiàn)了驚人的性能提升,在 ClickBench[1]測(cè)試中獲得:數(shù)據(jù)加載第一名,在查詢(xún)環(huán)節(jié), c6a.4xlarge第一名, c5a.4xlarge 第二名,c6a.metal第三名。
此外,Databend 社區(qū)還在版本 v1.0 中推出了多項(xiàng)新功能:
1
UPDATE
現(xiàn)在,用戶(hù)可以使用 UPDATE 語(yǔ)句來(lái)更新 Databend 中的數(shù)據(jù)。
更新語(yǔ)句的格式如下:
--Updateabook(Id:103)
UPDATEbookstoreSETbook_name='Thelonganswer(2nd)'WHEREbook_id=103;
通過(guò)支持 UPDATE 功能,Databend 實(shí)現(xiàn)了對(duì) CRUD 操作的完整支持。
2
ALTER TABLE
在 v1.0 中,用戶(hù)可以使用 ALTER TABLE 來(lái)修改 Databend 中的表結(jié)構(gòu):
--Addacolumn
ALTERTABLEtADDCOLUMNcIntDEFAULT10;
3
DECIMAL
在完成了 Databend 類(lèi)型系統(tǒng)的大型重構(gòu)之后,社區(qū)在一個(gè)堅(jiān)實(shí)的基礎(chǔ)上實(shí)現(xiàn)了 DECIMAL 數(shù)據(jù)類(lèi)型的支持!
--Createatablewithdecimaldatatype.
createtabletb_decimal(c1decimal(36,18));
--Inserttwovalues.
insertintotb_decimalvalues(0.152587668674722117),(0.017820781941443176);
select*fromtb_decimal;
+----------------------+
|c1|
+----------------------+
|0.152587668674722117|
|0.017820781941443176|
+----------------------+
4
Native Format
在 v0.9 版本中引入的 Native Formatstrawboat[2]得到了進(jìn)一步的完善!社區(qū)為 strawboat 增加了半結(jié)構(gòu)化數(shù)據(jù)的支持,并引入了多項(xiàng)性能優(yōu)化,幫助 Databend 在 HITS 數(shù)據(jù)集的性能取得了巨大提升。
5
CBO
引入了直方圖框架,可以利用統(tǒng)計(jì)信息更為精確地進(jìn)行代價(jià)估算。進(jìn)一步完善和強(qiáng)化 join reorder 算法,從而大大的提高多表 join 的性能,幫助 Databend 在 TPCH 數(shù)據(jù)集上的性能取得顯著提升。
6
SELECT FROM STAGE
STAGE 是 Databend 數(shù)據(jù)流轉(zhuǎn)的核心。我們之前已經(jīng)支持從 STAGE 中加載數(shù)據(jù)和向 STAGE 中導(dǎo)出數(shù)據(jù),現(xiàn)在我們更進(jìn)一步,支持了直接在 STAGE 中進(jìn)行數(shù)據(jù)查詢(xún)!
用戶(hù)只需要為 Databend 創(chuàng)建一個(gè)包含數(shù)據(jù)文件的 STAGE,就可以輕松進(jìn)行數(shù)據(jù)查詢(xún),無(wú)需編寫(xiě)復(fù)雜的建表語(yǔ)句或繁瑣的數(shù)據(jù)導(dǎo)入流程。
selectmin(number),max(number)
from@lake(pattern=>'.*parquet');
+-------------+-------------+
|min(number)|max(number)|
+-------------+-------------+
|0|9|
+-------------+-------------+
如果用戶(hù)只需要進(jìn)行一次性的查詢(xún),還可以直接使用更簡(jiǎn)短的 URI 形式:
selectcount(*),author
from'https://datafuse-1253727613.cos.ap-hongkong.myqcloud.com/data/books.parquet'
(file_format=>'parquet')
groupbyauthor;
+----------+---------------------+
|count(*)|author|
+----------+---------------------+
|1|JimGray|
|1|MichaelStonebraker|
+----------+---------------------+
7
Query Result Cache
在 v1.0 版本中,Databend 社區(qū)借鑒了 ClickHouse 社區(qū)的設(shè)計(jì),并增加了 Query Result Cache 功能。當(dāng)?shù)讓訑?shù)據(jù)沒(méi)有發(fā)生變化時(shí),執(zhí)行相同的查詢(xún)會(huì)命中緩存,避免了重復(fù)執(zhí)行查詢(xún)的過(guò)程。
MySQL[(none)]>SELECTWatchID,ClientIP,COUNT(*)ASc,SUM(IsRefresh),AVG(ResolutionWidth)FROMhitsGROUPBYWatchID,ClientIPORDERBYcDESCLIMIT10;
+---------------------+-------------+------+----------------+----------------------+
|watchid|clientip|c|sum(isrefresh)|avg(resolutionwidth)|
+---------------------+-------------+------+----------------+----------------------+
|6655575552203051303|1611957945|2|0|1638.0|
|8566928176839891583|-1402644643|2|0|1368.0|
|7904046282518428963|1509330109|2|0|1368.0|
|7224410078130478461|-776509581|2|0|1368.0|
|5957995970499767542|1311505962|1|0|1368.0|
|5295730445754781367|1398621605|1|0|1917.0|
|8635802783983293129|900266514|1|1|1638.0|
|5650467702003458413|1358200733|1|0|1368.0|
|6470882100682188891|-1911689457|1|0|1996.0|
|6475474889432602205|1501294204|1|0|1368.0|
+---------------------+-------------+------+----------------+----------------------+
10rowsinset(3.255sec)
MySQL[(none)]>SELECTWatchID,ClientIP,COUNT(*)ASc,SUM(IsRefresh),AVG(ResolutionWidth)FROMhitsGROUPBYWatchID,ClientIPORDERBYcDESCLIMIT10;
+---------------------+-------------+------+----------------+----------------------+
|watchid|clientip|c|sum(isrefresh)|avg(resolutionwidth)|
+---------------------+-------------+------+----------------+----------------------+
|6655575552203051303|1611957945|2|0|1638.0|
|8566928176839891583|-1402644643|2|0|1368.0|
|7904046282518428963|1509330109|2|0|1368.0|
|7224410078130478461|-776509581|2|0|1368.0|
|5957995970499767542|1311505962|1|0|1368.0|
|5295730445754781367|1398621605|1|0|1917.0|
|8635802783983293129|900266514|1|1|1638.0|
|5650467702003458413|1358200733|1|0|1368.0|
|6470882100682188891|-1911689457|1|0|1996.0|
|6475474889432602205|1501294204|1|0|1368.0|
+---------------------+-------------+------+----------------+----------------------+
10rowsinset(0.066sec)
8
Table Data Cache
緩存是存算分離架構(gòu)中的重要組成部分。在 v1.0 版本中,Databend 社區(qū)為我們帶來(lái)了 Table Data Cache!當(dāng) Databend 執(zhí)行查詢(xún)時(shí),會(huì)根據(jù)訪問(wèn)數(shù)據(jù)的熱度情況決定是否將該數(shù)據(jù)塊保存到緩存中,以加速下一次訪問(wèn)。
Aggregate Spill
在 v1.0 版本中, Databend 引入了 Aggregate spill, 當(dāng)在 Databend 中執(zhí)行聚合查詢(xún)時(shí), 會(huì)根據(jù) Databend 當(dāng)前的內(nèi)存使用情況動(dòng)態(tài),決定將內(nèi)存中的聚合數(shù)據(jù)臨時(shí)保存并持久化到對(duì)象存儲(chǔ)中, 防止查詢(xún)過(guò)程中使用過(guò)高的內(nèi)存。
未來(lái)展望
經(jīng)過(guò)這些版本的打磨,Databend 終于有了一個(gè)雛形。現(xiàn)在,讓我們重新認(rèn)識(shí)一下 Databend:
Part.
1
一個(gè)使用 Rust 開(kāi)發(fā)的云原生數(shù)據(jù)倉(cāng)庫(kù):存算分離,面向?qū)ο蟠鎯?chǔ)設(shè)計(jì),極致彈性
Part.
2
支持完整的 CRUD 特性,提供了 MySQL/Clickhouse/HTTP RESTful 等協(xié)議支持
Part.
3
提供原生的 ARRAY、MAP、JSON 等復(fù)雜類(lèi)型和 DECIMAL 高精度類(lèi)型支持
Part.
4
構(gòu)建了類(lèi)似于 Git 的 MVCC 列式存儲(chǔ)引擎,支持 Data Time Travel 和 Data Share 能力
Part.
5
不受存儲(chǔ)供應(yīng)商的限制,可以在任何存儲(chǔ)服務(wù)上運(yùn)行,并直接查詢(xún)?nèi)魏未鎯?chǔ)服務(wù)上的數(shù)據(jù)
Part.
6
目前已全面支持 HDFS/Cloud-Based Object Storage 協(xié)議,包括:阿里云 OSS,騰訊云 COS,華為云 OBS,以及 S3,Azure Blob, Google Cloud Storage
Databend 的征程遠(yuǎn)遠(yuǎn)不止于此,在未來(lái)我們希望 Databend 能擁有:
1
更強(qiáng)大的功能
在緊隨其后的 v1.1 版本中,我們希望實(shí)現(xiàn)如下功能:
-
JSON 索引:提高半結(jié)構(gòu)化數(shù)據(jù)檢索能力
-
分布式 Ingest 能力:提高數(shù)據(jù)寫(xiě)入速度
-
MERGE INTO 功能:實(shí)現(xiàn)數(shù)據(jù)源增、刪、改的實(shí)時(shí) CDC 能力
-
Windows Function
2
更開(kāi)放的社區(qū)
Databend Labs 由一群開(kāi)源愛(ài)好者組成,Databend 項(xiàng)目從創(chuàng)建之初就是采用 Apache 2.0 協(xié)議授權(quán)的開(kāi)源項(xiàng)目。在借鑒和吸收 ClickHouse,CockroachDB 等開(kāi)源項(xiàng)目?jī)?yōu)秀思想的同時(shí),我們也在以自己的方式回饋社區(qū):-
開(kāi)源了Databend 元數(shù)據(jù)服務(wù)集群的共識(shí)引擎openraft[3]
-
向 Apache 軟件基金會(huì)捐贈(zèng)了底層的數(shù)據(jù)訪問(wèn)引擎 opendal[4] 并成功進(jìn)入孵化器開(kāi)始孵化
-
成為向量計(jì)算基礎(chǔ)庫(kù) arrow2 等多個(gè)依賴(lài)項(xiàng)目的貢獻(xiàn)者
-
跟進(jìn)并采用 Rust Nightly,幫助 Rust 社區(qū)復(fù)現(xiàn)并驗(yàn)證問(wèn)題
審核編輯 :李倩
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1472瀏覽量
34912 -
大數(shù)據(jù)分析
+關(guān)注
關(guān)注
1文章
135瀏覽量
17461
原文標(biāo)題:Databend v1.0 Release 正式發(fā)布
文章出處:【微信號(hào):Rust語(yǔ)言中文社區(qū),微信公眾號(hào):Rust語(yǔ)言中文社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論