标签: elasticsearch

共 22 篇文章

大数据-191 Elasticsearch 集群规划与调优:节点角色、分片副本、写入与搜索优化清单

Master / Data / Coordinating 三类节点职责与生产落地的角色隔离策略,给出容量规划的推算抓手(JVM Heap 30–32GB 上限、冷热数据与磁盘/IO 约束、水平扩容路径),并将分片(shard)与副本(replica)作为"性能与可靠性"的核心旋钮

大数据-189 Nginx JSON 日志接入 ELK:ZK+Kafka+Elasticsearch 7.3.0+Kibana 实战搭建

通过 Nginx 配置 log_format json 输出结构化 access_log(包含 @timestamp、request_time、status、request_uri、ua 等字段),在多节点(h121/h122/h123)启动 Zookeeper 与 Kafka 做日志缓冲与解耦,再启动 Elasticsearch 7.3.0 存储检索,最后用 Kibana 7.3.0 完成检索与可视化。

大数据-190 Filebeat→Kafka→Logstash→Elasticsearch 实战

Filebeat 采集 Nginx access.log 写入 Kafka,Logstash 从 Kafka 消费后按字段(app/type)条件解析 message 内嵌 JSON,叠加 GeoIP(GeoLite2-City.mmdb)生成坐标字段并写入 Elasticsearch 索引(logstash-%{type}-%{+YYYY.MM.dd}),再交给 Kibana 展示。

大数据-188 Logstash Output 插件实战:stdout/file/Elasticsearch 输出配置与调优

Logstash Output 插件(Logstash 7.3.0)实战教程,涵盖 stdout(rubydebug)用于联调验数、file 输出用于本地归档、Elasticsearch 输出用于检索分析。重点讲解 bulk 批量提交、retry 重试、负载均衡、多输出并行、条件路由 if/else,并给出生产常见组合与高频故障定位路径。

大数据-183 Elasticsearch - 并发冲突与乐观锁、分布式数据一致性剖析

Elasticsearch 并发冲突(库存扣减的读-改-写)拆解写覆盖成因,并用 ES 的乐观并发控制(OCC)给出工程解法:通过 if_seq_no 与 if_primary_term 让更新具备条件写入,当文档已被其他请求修改时返回 version_conflict_engine_exception(HTTP 409)

大数据-184 Elasticsearch Doc Values 机制详解:列式存储如何支撑排序/聚合/脚本

索引时生成的磁盘列式数据结构,面向排序、聚合与脚本取值优化;多数支持类型默认开启,text 字段默认不提供 doc values,需通过 keyword 子字段或启用 fielddata 才能聚合/排序。

大数据-181 Elasticsearch 段合并与磁盘目录拆解:Merge Policy、Force Merge、Shard 文件结构一文搞清

解释 refresh 导致小段增多、段合并如何在后台把小段并入大段并清理已删除文档,为什么段过多会带来句柄/内存/CPU与查询开销。工程侧给出 merge 相关配置点:merge scheduler 线程数、merge policy(floor_segment、max_merge_at_once、max_merged_segment 等)的含义与取舍;并补充强制合并 _forcemerge 在日志归档、只读索引场景下的使用边界与性能风险。后半部分拆解 ES 数据目录:nodes/indices 下 UUID 对应结构。

大数据-182 Elasticsearch 倒排索引底层拆解:Terms 字典、FST、SkipList 与 Lucene 索引文件

文章详细解析 Elasticsearch 倒排索引的核心数据结构:Terms Dictionary(词典)、Posting List(倒排表)、FST(有限状态转换器)与 SkipList(跳表)在查询阶段如何加速 Term 定位与 postings 合并。结合 Lucene 分段不可变+flush/merge 的写入模型,解释 ES 近实时(NRT)背后的代价与收益,并用 .tim/.tip/.doc 等索引文件后缀把概念—落盘—执行路径串起来。

大数据-179 Elasticsearch 倒排索引与读写流程全解析:从 Lucene 原理到 Query/Fetch 实战

文章解析 Elasticsearch 倒排索引原理,对比正向索引与倒排索引差异,涵盖分词、Term Dictionary、Posting List 等核心概念。详述文档写入的分片路由规则(hash(routing) % number_of_primary_shards)、主副本写入复制流程,以及 Query 阶段与 Fetch 阶段协作方式。

大数据-180 Elasticsearch 近实时搜索:Segment、Refresh、Flush、Translog 全流程解析

文章详细解析 Elasticsearch 近实时搜索的核心机制,包括 Lucene Segment、Memory Buffer、File System Cache、Refresh、Flush 及 Translog(事务日志)等核心组件,解释为何 ES 只能做到"近实时搜索",以及数据持久化提交的流程。涵盖 refresh_interval、flush、translog.durability 等关键参数的调优思路。

大数据-177 Elasticsearch 聚合实战:指标聚合 + 桶聚合完整用法与 DSL 解析

覆盖指标聚合 Metrics Aggregations 与桶聚合 Bucket Aggregations 的完整实践,适用于 2025 年常见的 Elasticsearch 7.x / 8.x 版本。文章先从聚合语法入手,解释 aggs/aggregations 节点结构,然后通过 max、sum、avg、value_count、cardinality、stats、extended_stats、percentiles、percentile_ranks 等案例,演示如何在 ES 中完成最大值、最小值、求和等统计功能。

大数据-178 Elasticsearch 7.3 Java 实战:索引与文档 CRUD 全流程示例

elasticsearch-rest-high-level-client 实现索引和文档的增删改查,包括:通过 JSON 与 XContentBuilder 两种方式创建索引、配置分片与副本、删除索引、插入单条文档、按 ID 查询文档以及使用 match_all 查询全部数据。

大数据-175 Elasticsearch Term 精确查询与 Bool 组合实战:range/regexp/fuzzy 全示例

本文演示 Elasticsearch term-level queries 包括 term、terms、range、exists、prefix、regexp、fuzzy、ids 查询,以及 bool 复合查询。涵盖创建 book 索引、插入示例数据、各种查询 DSL 示例与执行结果。

大数据-176 Elasticsearch Filter DSL 全面实战:过滤查询、排序分页、高亮与批量操作

本文介绍 Filter DSL 与 query 的区别:Filter DSL 不计算相关度评分,专门优化过滤场景的执行效率。涵盖 bool + filter + range 数值/日期范围过滤、基于 _score 排序、单/多字段排序、分页、highlight 高亮配置以及批量操作(_mget、_bulk)。

大数据-173 Elasticsearch 映射与文档增删改查实战(基于 7.x/8.x)

本文详细介绍 Elasticsearch 7.x/8.x mapping 配置与文档 CRUD 操作,包括索引/字段映射创建、映射属性(type、index、store、analyzer)、文档创建、查询、全量/局部更新、按 ID 或条件删除。

大数据-174 Elasticsearch 查询 DSL 实战:match/match_phrase/query_string/multi_match 全解析

深入讲解 Elasticsearch 7.3 中查询 DSL 核心用法,重点拆解 match、match_phrase、query_string、multi_match 等全文检索语句在真实业务中的差异和坑位。

大数据-171 Elasticsearch-Head 与 Kibana 7.3.0 实战:安装要点、连通性与常见坑

介绍 Elasticsearch-Head 插件与 Kibana 7.3.0 的安装与连通性要点,涵盖 Chrome 扩展快速接入、ES 集群健康与分片可视化、REST API 调试、Kibana Dashboard/Discover 使用入口,以及生产场景下的 CORS、安全认证与端口冲突等常见问题排查。

大数据-172 Elasticsearch 索引操作与 IK 分词器落地实战:7.3/8.15 全流程速查

Elasticsearch 索引创建、存在性判断(单/多/全量)、打开/关闭/删除与健康度排查,以及 IK 分词器的安装、ik_max_word / ik_smart 分析与远程扩展词典/停用词的 Nginx 托管方案。

大数据-169 Elasticsearch 入门到可用:索引/文档 CRUD 与搜索最小示例

Elasticsearch(ES 7.x/8.x)最小示例:创建索引、插入文档、按 ID 查询、更新与 _search 搜索流程,配合返回样例与截图,帮助读者在 3–10 分钟内完成「索引/文档 CRUD」跑通。

大数据-170 Elasticsearch 7.3.0 三节点集群实战:目录/参数/启动到联机

Elasticsearch 7.3.0 三节点集群部署实战教程,涵盖目录创建与权限设置、系统参数配置(vm.max_map_count、limits.conf)、JVM内存调整、elasticsearch.yml集群配置、分发与启动流程,以及常见错误排查清单。

大数据-167 ELK Elastic Stack(ELK) 实战:架构要点、索引与排错清单

文章介绍 Elasticsearch 8.x、Logstash 8.x、Kibana 8.x 的核心能力与常见实践,覆盖集中式日志系统的采集、传输、索引、分片/副本、查询 DSL、聚合与 ILM 生命周期管理等关键环节。

大数据-168 Elasticsearch 单机云服务器部署运行 详细流程

Elasticsearch是一个分布式全文搜索引擎,支持单节点模式(Single-Node Model)和集群模式(Cluster Model)部署,一般来说,小公司的业务场景往往使用Single-Node Mode部署即可。