女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么ElasticSearch復(fù)雜條件查詢比MySQL好?

數(shù)據(jù)分析與開發(fā) ? 來源:程序員歷小冰 ? 作者:程序員歷小冰 ? 2021-04-09 11:16 ? 次閱讀

熟悉 MySQL 的同學(xué)一定都知道,MySQL 對于復(fù)雜條件查詢的支持并不好。MySQL 最多使用一個(gè)條件涉及的索引來過濾,然后剩余的條件只能在遍歷行過程中進(jìn)行內(nèi)存過濾。

上述這種處理復(fù)雜條件查詢的方式因?yàn)橹荒芡ㄟ^一個(gè)索引進(jìn)行過濾,所以需要進(jìn)行大量的 I/O 操作來讀取行數(shù)據(jù),并消耗 CPU 進(jìn)行內(nèi)存過濾,導(dǎo)致查詢性能的下降。

而 ElasticSearch 因其特性,十分適合進(jìn)行復(fù)雜條件查詢,是業(yè)界主流的復(fù)雜條件查詢場景解決方案,廣泛應(yīng)用于訂單和日志查詢等場景。

下面我們就一起來看一下,為什么 ElasticSearch 適合進(jìn)行復(fù)雜條件查詢。

ElasticSearch 簡介

Elasticsearch 是開源的實(shí)時(shí)分布式搜索分析引擎,內(nèi)部使用 Lucene 做索引與搜索。它提供"準(zhǔn)實(shí)時(shí)搜索"能力,并且能動態(tài)集群規(guī)模,彈性擴(kuò)容。

Elasticsearch 使用 Lucene 作為其全文搜索引擎,用于處理純文本的數(shù)據(jù),但 Lucene 只是一個(gè)庫,提供建立索引、執(zhí)行搜索等接口,但不包含分布式服務(wù),這些正是 Elasticsearch 做的。

下面,我們來介紹一下 ElasticSearch 的相關(guān)概念。為了便于初學(xué)者理解,我們先將 ElasticSearch 中的概念和 MySQL 中的概念大致地進(jìn)行對應(yīng)。但是二者在具體細(xì)節(jié)上還是有很多差異的,大家深入了解 ElasticSearch 就會將二者區(qū)分清楚,不能強(qiáng)行對比等同。

2d9fa832-9878-11eb-8b86-12bb97331649.png

ElasticSearch 中的索引 Index 類似于 MySQL 中的數(shù)據(jù)庫 Database;

ElasticSearch 中的類型 Type 類似于 MySQL 中的表 Table;需要注意,這個(gè)概念在 7.x 版本中被完全刪除,而且概念上和 Table 也有較大差異;

ElasticSearch 中的文檔 Document 類似于 MySQL 中的數(shù)據(jù)行 Row,每個(gè)文檔由多個(gè)字段 Filed 組成,這個(gè)Filed 就類似于 MySQL 的 Column;

ElasticSearch 中的映射 Mapping 是對索引庫中的索引字段及其數(shù)據(jù)類型進(jìn)行定義,類似于關(guān)系型數(shù)據(jù)庫中的表結(jié)構(gòu) Schema;

ElasticSearch 使用自己的領(lǐng)域語言 Query DSL 來進(jìn)行增刪改查,而 MySQL 使用 SQL 語言進(jìn)行上訴操作。

ElasticSearch 還有一系列有關(guān)其分布式特性的概念,我們這里就暫不介紹了,等后續(xù)學(xué)習(xí)到其分布式特性時(shí)在進(jìn)行介紹。

倒排索引

MySQL 有 B+ 樹索引,而 ElasticSearch 則是倒排索引 (Inverted Index),它通過倒排索引來實(shí)現(xiàn)比 MySQL 更快的過濾和復(fù)雜條件的查詢,此外,全文搜索功能也是依賴倒排索引才能實(shí)現(xiàn)。下面,我們就具體來看一下何為倒排索引。

倒排索引按照維基百科的描述,是存儲文檔內(nèi)容到文檔位置映射關(guān)系的數(shù)據(jù)庫索引結(jié)構(gòu)。不過只看定義,我是有點(diǎn)迷惑,這不是和 MySQL 的非主鍵索引類似嘛,為什么要叫它“倒排”呢?這個(gè)問題我目前也為搞清楚,可能要等到后續(xù)了解了其具體實(shí)現(xiàn)才能理解。

我們還是以書籍檢索為例,假設(shè)有以下數(shù)據(jù),每一行就是一個(gè) Document,每個(gè) Document 由 id、ISBN 號,作者名稱和評分組成。

2da88b00-9878-11eb-8b86-12bb97331649.png

給上述數(shù)據(jù)按照 ISBN 和 Author 建立的倒排索引如下所示。倒排索引是每個(gè)字段分開建立的,相互獨(dú)立。有兩個(gè)專門的術(shù)語,分別是索引 Term 和倒排表 Posting List。字段的值就是 Term,比如 N0007,而 Term 對應(yīng)的文檔 ID 的列表就是 Posting List,對應(yīng)圖中紅色的部分。

2db4f4f8-9878-11eb-8b86-12bb97331649.png

一般 Term 都是按照順序排序的,比如 Author 名稱就是按照字母序進(jìn)行了排序,排序之后,當(dāng)我們搜索某一個(gè) Term 時(shí),就不需要從頭遍歷,而是采用二分查找。一系列排序后的 Term 就組成了索引表 Term Dictionary。

但是 Term Dictionary 往往很大,無法完整放入內(nèi)存,這是為了更快的查詢,還需要再給它創(chuàng)建索引,也就是 Term Index 。

ElasticSearch 使用 Burst-Trie 結(jié)構(gòu)來實(shí)現(xiàn) Term Index,它是一種前綴樹 Trie 的一種變種,它主要是將后綴進(jìn)行了壓縮,降低了Trie的高度,從而獲取更好查詢性能。

Term Index 并不需要像 MySQL 的索引一樣,包含所有的 Term,而是包含的是這些 Term 的前綴。它就類似于字典的查詢目錄,可以進(jìn)行快速定位到 Term Dictionary 的某一位置,然后再從這個(gè)位置向后查詢。

綜上, Alice,Alf,Arlan,Bob,Tom 等詞的倒排索引如下所示。綠色部分是 Term Index,藍(lán)色部分是 Term Dictionary,紅色部分是 Posting List。

2dbdad14-9878-11eb-8b86-12bb97331649.png

一般來說,Term Index 都是全部緩存在內(nèi)存中,查詢時(shí),先通過其快速定位到 Term Dictionary 對應(yīng)的大致范圍,然后再進(jìn)行磁盤讀取查找對應(yīng)的 Term,這樣就大大減少了磁盤 I/O 的次數(shù)。

聯(lián)合索引查詢

了解了 ElasticSearch 的倒排索引后,我們再來看看其如何處理復(fù)雜的聯(lián)合索引查詢。比如上述書籍例子中,我們需要查詢評分等于2.2并且作者名稱叫 Tom 的書籍。

理論上,我們只需要分別按照 Score 和 Author 字段的倒排索引進(jìn)行查詢,獲取響應(yīng)的 Posting List,再將其做交集合并即可。

這里又要吐槽一下 MySQL,它是不支持這個(gè)合并操作的,它只能按照一個(gè)字段的索引進(jìn)行查詢,然后根據(jù)另外一個(gè)字段的條件做內(nèi)存過濾。順便說一下,MySQL 的 join 功能也弱爆了,感興趣的同學(xué)可以了解一下。

而 ElasticSearch 則支持使用跳表 Skip List和 Bitset 的方式將數(shù)據(jù)集進(jìn)行合并。

使用 Skip List 結(jié)構(gòu),同時(shí)遍歷 Score 和 Author 查詢出來的 Posting List,利用其 Skip List 結(jié)構(gòu),相互跳躍對比,得出合集。

使用 Bitset 結(jié)構(gòu),對 Score 和 Author 查詢出來的 Posting List 的值計(jì)算出各自的 Bitset,然后進(jìn)行 AND 操作。

跳表合并策略

ElasticSearch 在存儲 Posting List 數(shù)據(jù)時(shí),就保存了對應(yīng)的多級跳表結(jié)構(gòu)響應(yīng)的數(shù)據(jù),這也體現(xiàn)了其空間換時(shí)間的基本思想。

這里先介紹一下跳表的基本概念,它其實(shí)是一種可以進(jìn)行二分查找的有序鏈表。跳表在原有的有序鏈表上面增加了多級索引,通過索引來實(shí)現(xiàn)快速查找。首先在最高級索引上查找最后一個(gè)小于當(dāng)前查找元素的位置,然后再跳到次高級索引繼續(xù)查找,直到跳到最底層為止,通過這種方式,加快了查詢的速度。

比如,按照 Score 查出來的 Posting List 為 [2,3,4,5,7,9,10,11],按照 Author 查出來的結(jié)果為 [3,8,9,12,13],則二者的跳表結(jié)構(gòu)如下圖所示。

2dd4c8dc-9878-11eb-8b86-12bb97331649.png

具體合并過程則是先選最短的 posting list,也就是 Author 的結(jié)果集,從其最小的一個(gè) id 開始,將其作為當(dāng)前最大值。然后依次剩余 posting list 中查找大于或等于該值的位置。

比如上述結(jié)果集中,先去 Score 結(jié)果集中查找 3,找到后,就表明 3是二者的合集元素之一;然后再重新開啟一輪,選取 Author 結(jié)果集中 3 的下一個(gè)值 8 ,去 Score 結(jié)果集查詢 8,發(fā)現(xiàn)了大于等于 8 的最小的值是 9 ,所以不可能有共同的值 8,然后再去 Author 結(jié)果集查找 9 ,發(fā)現(xiàn)其大于等于 9 的最小值是 12,所以再去 Score 結(jié)果集中查找大于等于 12的值,發(fā)現(xiàn)并不存在;最終得出二者的合集就只有 [3]。

在查詢過程中,每個(gè) posting list 都可以根據(jù)當(dāng)前 id 通過 skip list 快速跳過不符合的 id 值,加速整個(gè)合并取交集的過程。

ElasticSearch 對于較長的 posting list 也會使用 Frame Of Reference 進(jìn)行壓縮編碼,減少了磁盤占用,減少了索引尺寸。有關(guān)具體存儲結(jié)構(gòu)的實(shí)現(xiàn)我們后續(xù)再進(jìn)行細(xì)聊。

Bitset 合并策略

ElasticSearch 除了使用 skipList 來進(jìn)行數(shù)據(jù)磁盤讀取時(shí)的合并操作外,還會將一些查詢條件對應(yīng)的結(jié)果集 posting list 進(jìn)行內(nèi)存緩存,也就是所謂的 Filter Cache,為了后續(xù)再次復(fù)用。

為了減少內(nèi)存緩存所消耗的內(nèi)存空間大小,ElasticSearch 沒有使用單純的數(shù)組和 bitset 來存儲 posting list,而是使用要壓縮效率更高的 Roaring Bitmap。

我們可以先來講一下單純數(shù)組或 bitset 數(shù)據(jù)結(jié)構(gòu)為什么并不使用。比如如下一道較為常見的面試題目:

給定含有 40 億個(gè)不重復(fù)的位于 [0, 2^32 - 1] 區(qū)間內(nèi)的整數(shù)的集合,如何快速判定某個(gè)數(shù)是否在該集合內(nèi)?

如果我們要使用 unsigned long 數(shù)組來存儲它的話,也就需要消耗 40億 * 32 位 = 160 Byte,大致是 16000 MB。

如果要使用位圖 Bitset 來存儲的話,即某個(gè)數(shù)位于原集合內(nèi),就將它對應(yīng)的位圖內(nèi)的比特置為1,否則保持為0。這樣只需要消耗 2 ^ 32 位 = 512 MB,這可只有原來的 3.2 % 左右。

但是,Bitset 也有其缺陷,也就是稀疏存儲的問題,比如上述集合并不是 40億,而是只有2、3個(gè),那么 Bitset 中只有少數(shù)幾位是1,其他位都是 0,但是它仍然占用了 512 MB。

而 RoaringBitmap 就是為了解決稀疏存儲的問題。下圖就是 RoaringBitmap 的基本原理示意圖。

2e0350bc-9878-11eb-8b86-12bb97331649.png

首先,如上圖所示,計(jì)算出32位無符號整數(shù)和 65536 的除數(shù)和余數(shù)。其含義表示,將32位無符號整數(shù)按照高16位分桶,即最多可能有2^16=65536個(gè)桶,術(shù)語懲治為 container。存儲數(shù)據(jù)時(shí),按照數(shù)據(jù)的高16位找到 container(找不到就會新建一個(gè)),再將低16位放入container中。也就是說,一個(gè) RoaringBitmap 就是很多container的集合。

然后 container 內(nèi)具體的存儲結(jié)構(gòu)要根據(jù)存入其內(nèi)數(shù)據(jù)的基數(shù)來決定。

基數(shù)小于 2 ^ 12 次方即 4096時(shí),使用unsigned short類型的有序數(shù)組來存儲,最大消耗空間就是 8 KB;

基數(shù)大于 4096 時(shí),則使用大小為 2 ^ 16 次方的普通 bitset 來存儲,固定消耗 8 KB。當(dāng)然,有些時(shí)候也會對 bitset 進(jìn)行行程長度編碼(RLE)壓縮,進(jìn)一步減少空間占用。

ElasticSearch 就是使用 Roaring Bitmap 來緩存不同條件查詢出來的 posting list,然后再進(jìn)行與操作計(jì)算出最終結(jié)果集。

后記

至此,我們也算了解了 ElasticSearch 為什么比 MySQL 更適合復(fù)雜條件查詢,但是有好就有弊,因?yàn)闉榱瞬樵冏隽诉@么多的準(zhǔn)備工作,ElasticSearch 的插入速度就會慢于 MySQL,而且數(shù)據(jù)存入 ES 后并不是立馬就能檢索到。

原文標(biāo)題:為什么 ElasticSearch 比 MySQL 更適合復(fù)雜條件搜索

文章出處:【微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3587

    瀏覽量

    43473
  • MySQL
    +關(guān)注

    關(guān)注

    1

    文章

    849

    瀏覽量

    27523

原文標(biāo)題:為什么 ElasticSearch 比 MySQL 更適合復(fù)雜條件搜索

文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    MySQL數(shù)據(jù)庫是什么

    MySQL數(shù)據(jù)庫是一種 開源的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS) ,由瑞典MySQL AB公司開發(fā),后被Oracle公司收購。它通過結(jié)構(gòu)化查詢語言(SQL)進(jìn)行數(shù)據(jù)存儲、管理和操作,廣泛應(yīng)用于Web
    的頭像 發(fā)表于 05-23 09:18 ?152次閱讀

    單節(jié)點(diǎn)Elasticsearch+Filebeat+Kibana安裝指南

    單節(jié)點(diǎn)Elasticsearch+Filebeat+Kibana安裝指南
    的頭像 發(fā)表于 05-21 11:06 ?133次閱讀
    單節(jié)點(diǎn)<b class='flag-5'>Elasticsearch</b>+Filebeat+Kibana安裝指南

    MySQL簡介與理論基礎(chǔ)

    MySQL是世界上最流行的開源關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一,廣泛應(yīng)用于網(wǎng)站、應(yīng)用程序和企業(yè)級系統(tǒng)。它采用客戶端/服務(wù)器架構(gòu),支持多用戶環(huán)境,并基于SQL(結(jié)構(gòu)化查詢語言)標(biāo)準(zhǔn)。
    的頭像 發(fā)表于 05-21 10:43 ?128次閱讀

    適用于MySQL的dbExpress驅(qū)動程序:提供對MySQL的快速訪問

    dbExpress Driver for MySQL 概述 dbExpress 是一個(gè)獨(dú)立于數(shù)據(jù)庫的層,它定義了通用接口以提供 在 Windows 上從 Delphi 和 C++ Builder
    的頭像 發(fā)表于 01-21 09:52 ?377次閱讀

    使用插件將Excel連接到MySQL/MariaDB

    使用插件將 Excel 連接到 MySQL/MariaDB 適用于 MySQL 的 Devart Excel 插件允許您將 Microsoft Excel 連接到 MySQL 或 MariaDB
    的頭像 發(fā)表于 01-20 12:38 ?512次閱讀
    使用插件將Excel連接到<b class='flag-5'>MySQL</b>/MariaDB

    如何在Linux環(huán)境下高效安裝部署和配置Elasticsearch

    /CentOS-7-x86_64-DVD-2009.iso elasticsearch-7.10.0-linux-x86_64.tar.gz https://www.elastic.co/cn/downloads/past-releases
    的頭像 發(fā)表于 01-16 11:49 ?868次閱讀

    MySQL數(shù)據(jù)庫的安裝

    MySQL數(shù)據(jù)庫的安裝 【一】各種數(shù)據(jù)庫的端口 MySQL :3306 Redis :6379 MongoDB :27017 Django :8000 flask :5000 【二】MySQL 介紹
    的頭像 發(fā)表于 01-14 11:25 ?481次閱讀
    <b class='flag-5'>MySQL</b>數(shù)據(jù)庫的安裝

    在華為云上通過 Docker 容器部署 Elasticsearch 并進(jìn)行性能評測

    運(yùn)行 Elasticsearch 查詢評測 ? 5.2 查看評測結(jié)果 ? 5.3 調(diào)整并發(fā)請求和請求數(shù) ? 6. 總結(jié) ? 前言 隨著數(shù)據(jù)量的
    的頭像 發(fā)表于 01-13 13:36 ?375次閱讀
    在華為云上通過 Docker 容器部署 <b class='flag-5'>Elasticsearch</b> 并進(jìn)行性能評測

    云服務(wù)器 Flexus X 實(shí)例 MySQL 應(yīng)用加速測試

    文章目錄 目錄 文章目錄 ? 購買配置 ? 基本配置參考如下: ? 連接服務(wù)器 ? 查詢MySQL狀態(tài) ? 啟動MySQL ? 添加配置 ? 添加密碼并修改權(quán)限 ? 性能測試 ? C#插入數(shù)據(jù)測試
    的頭像 發(fā)表于 12-24 12:19 ?454次閱讀
    云服務(wù)器 Flexus X 實(shí)例 <b class='flag-5'>MySQL</b> 應(yīng)用加速測試

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)—Mysql數(shù)據(jù)庫表記錄丟失的數(shù)據(jù)恢復(fù)流程

    Mysql數(shù)據(jù)庫故障: Mysql數(shù)據(jù)庫表記錄丟失。 Mysql數(shù)據(jù)庫故障表現(xiàn): 1、Mysql數(shù)據(jù)庫表中無任何數(shù)據(jù)或只有部分?jǐn)?shù)據(jù)。 2、客戶端無法
    的頭像 發(fā)表于 12-16 11:05 ?519次閱讀
    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)—<b class='flag-5'>Mysql</b>數(shù)據(jù)庫表記錄丟失的數(shù)據(jù)恢復(fù)流程

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)—MYSQL數(shù)據(jù)庫ibdata1文件損壞的數(shù)據(jù)恢復(fù)案例

    mysql數(shù)據(jù)庫故障: mysql數(shù)據(jù)庫文件ibdata1、MYI、MYD損壞。 故障表現(xiàn):1、數(shù)據(jù)庫無法進(jìn)行查詢等操作;2、使用mysqlcheck和myisamchk無法修復(fù)數(shù)據(jù)庫。
    的頭像 發(fā)表于 12-09 11:05 ?511次閱讀

    Elasticsearch 再次開源

    Elasticsearch 和 Kibana 又可以被稱為開源了。很難表達(dá)這句話讓我有多高興。我激動得簡直要跳起來了。我們 Elastic 的所有人都是如此。開源是我的 DNA。這也是Elastic的DNA。能夠再次將 Elasticsearch 稱為開源,我感到非常高興
    的頭像 發(fā)表于 11-13 12:14 ?383次閱讀
    <b class='flag-5'>Elasticsearch</b> 再次開源

    MySQL知識點(diǎn)匯總

    大家,這部分被稱為DQL部分,是每個(gè)學(xué)習(xí)MySQL必須要學(xué)會的部分,下面就讓我來介紹MySQL中的其他部分。
    的頭像 發(fā)表于 08-05 15:27 ?596次閱讀
    <b class='flag-5'>MySQL</b>知識點(diǎn)匯總

    一文了解MySQL索引機(jī)制

    接觸MySQL數(shù)據(jù)庫的小伙伴一定避不開索引,索引的出現(xiàn)是為了提高數(shù)據(jù)查詢的效率,就像書的目錄一樣。 某一個(gè)SQL查詢比較慢,你第一時(shí)間想到的就是“給某個(gè)字段加個(gè)索引吧”,那么索引是什么?是如何工作
    的頭像 發(fā)表于 07-25 14:05 ?515次閱讀
    一文了解<b class='flag-5'>MySQL</b>索引機(jī)制

    分庫分表后復(fù)雜查詢的應(yīng)對之道:基于DTS實(shí)時(shí)性ES寬表構(gòu)建技術(shù)實(shí)踐

    分表,通過分庫分表應(yīng)對存系統(tǒng)讀寫性能瓶頸和存儲瓶頸;分庫分表幫我們解決問題的同時(shí),也帶來了復(fù)雜性;比如多條件的分頁查詢,多條件的聯(lián)表查詢變得
    的頭像 發(fā)表于 06-25 18:30 ?1256次閱讀
    分庫分表后<b class='flag-5'>復(fù)雜</b><b class='flag-5'>查詢</b>的應(yīng)對之道:基于DTS實(shí)時(shí)性ES寬表構(gòu)建技術(shù)實(shí)踐