大数据-179 Elasticsearch 倒排索引与读写流程全解析：从 Lucene 原理到 Query/Fetch 实战

概述

本文深入解析 Elasticsearch 基于 Lucene 的倒排索引原理，以及文档的读写流程。

倒排索引是一种用于快速查找包含特定词汇的文档的数据结构。它类似于一本书的索引页，但结构上是”倒过来”的，因此得名。

正向索引（Forward Index）

倒排索引（Inverted Index）

例如，假设有三篇文档如下：

正向索引会记录每个文档中有哪些词：

Doc1: ["Elasticsearch", "是", "一个", "分布式", "搜索", "引擎"]
Doc2: ["分布式", "系统", "可以", "提供", "高", "可用性"]
Doc3: ["搜索", "引擎", "使用", "倒排索引", "进行", "高效", "搜索"]

倒排索引则会记录每个词在哪些文档中出现：

"Elasticsearch": [1]
"分布式": [1, 2]
"搜索": [1, 3]
"引擎": [1, 3]
"倒排索引": [3]

在 Elasticsearch 中，文档首先会被分析和处理，然后生成倒排索引。其过程大致如下：

倒排索引的核心部分可以分为以下几个组成部分：

词汇表（Term Dictionary）：保存了所有被索引的词项，通常是以字典形式存储
倒排列表（Posting List）：对于每个词项，倒排列表记录了所有包含该词项的文档ID，还可包含：
- 词项频率（Term Frequency, TF）：记录该词项在文档中出现的次数
- 文档频率（Document Frequency, DF）：记录该词项在整个索引中出现的文档总数
- 位置（Position）：词项在文档中的位置，用于支持短语和邻近查询

向 Elasticsearch 中添加文档时，由于 ES 是分布式集群，底层设计了一个索引由众多 Shard 分片，所以添加文档时需要确定该文档属于哪个分片，确定规则为：

shard = hash(routing) % number_of_primary_shards

写操作必须在主分片上面完成之后，才能被复制到其他节点作为分片副本。新建、索引和删除请求都是写操作。

一个搜索请求必须询问请求的索引中所有分片的某个副本来进行匹配。一次检索流程主要分为两个阶段：

症状	根因定位	修复关键词
能写入，搜索却查不到或结果很少	分词器不一致：索引时和查询时使用了不同 analyzer	用 _analyze API 查看索引与查询实际生成的 terms
查询只命中部分文档，相关性排序”很奇怪”	倒排索引中 TF/DF 与 BM25 打分机制未理解	使用 explain API 查看单条命中文档的评分构成
写入后立刻搜索，短时间内查不到新文档	不了解 refresh 机制：索引到倒排索引之间存在 refresh 周期	查看索引的 refresh_interval 配置
部分分片 QPS 明显过高，集群负载不均	routing 设计不当，导致文档集中落在少数分片	合理选择 routing 字段，避免低基数字段
搜索整体变慢，CPU 使用率高	倒排索引膨胀：字段过多、text 字段滥用	对只用于展示的字段设置 index: false
短语/邻近查询效果差	未开启或未正确使用位置（position）信息	使用 match_phrase/span 系列查询
集群偶发写入失败或”版本冲突”异常	对同一文档频繁更新，未理解主分片 + 副本异步复制与乐观锁版本机制	合理设计更新策略，减少无意义的全量覆盖更新
搜索结果跨页翻页越深越慢	使用高 from + size 深分页，导致多个分片上的倒排结果集合反复合并	对业务深分页使用 search_after 或游标/滚动查询

倒排索引是 Elasticsearch 实现毫秒级全文搜索的核心数据结构。通过理解倒排索引的原理、分片路由机制以及 Query/Fetch 两阶段搜索流程，可以更好地优化 Elasticsearch 查询性能、设计合适的分词策略以及解决搜索相关问题。