Blog

Technical exploration and thoughts · 655 articles

All big-data java ai artificial-intelligence programmer-life machine-learning mysql data-engineering backend distributed data-warehouse flink architecture python robotics spark hive llm distributed-system kafka database scala embodied-ai hdfs deep-learning spring message-queue langchain system-architecture mybatis performance-optimization elasticsearch mongodb health redis spring-boot rabbitmq mq hadoop elk flume stream-processing transaction messaging rpc tutorial sklearn caching cache dubbo java-rabbitmq clickhouse hbase kylin neo4j microservices sql index tomcat programmer multimodal zookeeper druid canal mllib orm ioc nutrition large-model robot-arm tesla indie-dev nginx datax sharding shardingsphere fastdfs rocketmq time-management applications career-growth docker etl guava java-rocketmq optimization learning quantization deployment kudu logstash decision-tree sqoop airflow realtime-warehouse mycat storage-engine consistency fat-loss gpt product-manager coffee business-analysis automation algorithm career-and-growth middleware computer-vision autonomous-driving fsd qwen mapreduce crud monitoring database-sharding distributed-transaction concurrency transaction-pitfalls graph-database memcached netty innodb salary career-development cold-shower running efficiency luckin industry medical industrial lfp lfp-battery battery ev fitness career-personal-growth ocr deepseek deepseek-ocr omni cloud-native yarn datastream jdbc olap knn linear-regression numpy zipper-table griffin devops kubernetes data-mapping design-patterns high-availability read-write-separation sharding-jdbc saga security replica-set cql source-code-analysis evcache servlet aop load-balancing handwritten nio mindfulness meditation exercise reinforcement-learning agent conflict evaluation money-management consumption savings social-media dating memory price-war cotti ptq qat qlora qwen2.5-vl multivitamin calcium evolution technology industrial-robot agriculture hardware simulation ros large-language-model degradation slam visual-inspection programming-language linux window raft kibana aggregation regularization logistic-regression prometheus exporter atlas state-management maven acid annotation-development master-slave-replication flexible-transaction xa cap 2pc 3pc bson explain b+tree slow-query authentication cluster oss aliyun source-code async netflix jms paxos rmi engineering physiology hot-shower practical-guide muscle-building transformer tensorflow reports technical-sharing product entrepreneurship methodology team-collaboration conflict-resolution collaboration gtd tools usage-time health-management china-us culture marriage partner coffee-beverage-trend homemade-coffee taste performance fine-tuning blip-2 minigpt-4 llava alibaba vitamins fish-oil vitamin-c iron folate chronic-disease supplements traditional-chinese-medicine western-medicine integrated-medicine development-history tech-evolution lakehouse data-mesh serverless talent tech-selection history unimate hydraulic-drive ai-collaboration categories service-robot humanoid-robot logistics career skills trends service scara cobot motor reducer sensor plc mpc control trajectory-planning vision core-technology perception decision-making home data market challenges commercialization future-trends meta-learning lifestyle nmc-battery body-fat-percentage body-shaping muscle-gain strength-training body-fat metabolism sympathetic-nerve parasympathetic-nerve autonomic-nervous-system hrv testing-platform api-integration automotive 3d model-y open-source imitation-learning visual-algorithms research java-21 kotlin golang rust javascript node k8s gemini cep source sink dataset mergetree ik-analyzer dsl term-query filter inverted-index nrt grok filebeat tez data-mining cross-validation normalization evaluation-metrics ridge-regression lasso gradient-descent grafana visualization ods scd dimension-table dwd dws ads realtime memory-management parallelism harbor container esp32 home-assistant jenkins gitlab cicd essay website astro frontend xml-mapping dynamic-sql sqlsession high-concurrency mha failover distributed-primary-key scaling binding-tables sql-optimization binding-table tcc seata data-masking distributed-database sharding-proxy sharding-strategy e-r-sharding configuration-file transaction-isolation-level schema.xml propagation declarative-transaction programmatic-transaction transactional plugin database-operations nosql json pipeline pagination writeconcern pagehelper generic-mapper b-tree use-cases selection-guide template repository wiredtiger inmemory containerization data-modeling embedded reference oplog election permissions sharded-cluster graph-theory euler-path proxy-pattern embedded-database backup access-control dynamic-proxy cloud-storage lru concurrenthashmap oom distributed-cache spymemcached activemq blockingqueue message-storage queue-index erlang handwritten-framework jdk reverse-proxy process configuration class-loading ssl jvm io heartbeat-detection spi routing storage-structure undo redo thread-model tablespace binlog replication clustered-index lock mvcc sorting pip offline pandas voice

Elasticsearch Cluster Planning & Tuning: Node Roles, Shar...

Master / Data / Coordinating node responsibilities and production role isolation strategies, capacity planning calculations (JVM Heap 30-32GB limit, hot/cold data with disk/IO constraints, horizont...

10/26/2024

big-dataelasticsearch

DataX 3.0 Architecture & Practice: Reader/Writer Plugin M...

DataX (DataX 3.0) is an offline data synchronization/data integration tool widely used and open-sourced within Alibaba, for enterprise-level heterogeneous data...

10/26/2024

big-datadatax

Spark Super WordCount: Text Cleaning & MySQL Persistence

Implement complete production-ready word frequency pipeline: lowercase conversion, punctuation removal, stop word filtering, word frequency counting, finally efficiently write to MySQL via foreachP...

10/26/2024

big-datasparkscalajavadata-engineering

Spark Serialization & RDD Execution Principle

Deep dive into Spark Driver-Executor process communication, Java/Kryo serialization selection, closure serialization problem troubleshooting, and RDD dependencies, Stage division and persistence st...

10/26/2024

big-datasparkscaladistributed-system

Nginx JSON Logs to ELK: ZK+Kafka+Elasticsearch 7.3.0+Kiba...

Configure Nginx log_format json to output structured access_log (containing @timestamp, request_time, status, request_uri, ua and other fields), start...

10/25/2024

big-dataelknginxkafkaelasticsearchkibana

Filebeat → Kafka → Logstash → Elasticsearch Practice

Filebeat collects Nginx access.log and writes to Kafka, Logstash consumes from Kafka and parses message embedded JSON by field (app/type) conditions, adds...

10/25/2024

big-datafilebeatkafkalogstashelasticsearchelk

Logstash Filter Plugin Practice: grok Parsing Console & N...

Article explains using grok in Logstash 7.3.0 environment to extract structured fields from console stdin and Nginx access logs (IP, time_local, method, request, status etc), and quickly verify par...

10/24/2024

big-datalogstashelkgrok

Logstash Output Plugin Practice: stdout/file/Elasticsearc...

Logstash Output plugin (Logstash 7.3.0) practical tutorial, covering stdout (rubydebug) for debugging, file output for local archiving, Elasticsearch output...

10/24/2024

big-datalogstashelkelasticsearch

Logstash 7 Getting Started: stdin/file Collection, sinced...

Logstash 7 getting started tutorial, covering stdin/file collection, sincedb mechanism and start_position effect conditions, with error quick reference table

10/23/2024

big-datalogstashelk

Logstash JDBC vs Syslog Input: Principle, Scenario Compar...

Logstash Input plugin comparison, breakdown technical differences between JDBC Input and Syslog collection pipeline, applicable scenarios and key configs. JDBC...

10/23/2024

big-datalogstashelkjdbc

Spark Scala WordCount Implementation

Implement distributed WordCount using Spark + Scala and Spark + Java, detailed RDD five-step processing flow, Maven project configuration and spark-submit command.

10/23/2024

big-datasparkscaladata-engineering

Spark Scala Practice: Pi Estimation & Mutual Friends

Deep dive into Spark RDD programming through two classic cases: Monte Carlo method distributed Pi estimation, and mutual friends analysis in social networks with two approaches, comparing Cartesian...

10/23/2024

big-datasparkscaladata-engineering

Elasticsearch Concurrency Conflicts & Optimistic Lock, Di...

Elasticsearch concurrency conflicts (inventory deduction read-modify-write) breakdown write overwrite cause, and gives engineering solution using ES optimistic...

10/22/2024

big-dataelasticsearch

Elasticsearch Doc Values Mechanism Detailed: Columnar Sto...

Disk columnar data structure generated at indexing time, optimized for sorting, aggregation and script values; most supported types enabled by default, text fields don't provide doc values by defau...

10/22/2024

big-dataelasticsearch

Elasticsearch Segment Merge & Disk Directory Breakdown: M...

Explains why refresh causes small segment increase, how segment merge merges small segments into large ones in background and cleans deleted documents, why too...

10/21/2024

big-dataelasticsearch

Elasticsearch Inverted Index Underlying Breakdown: Terms ...

Article details core data structure of Elasticsearch inverted index: Terms Dictionary, Posting List, FST (Finite State Transducer) and SkipList how accelerate...

10/21/2024

big-dataelasticsearch

Elasticsearch Inverted Index & Read/Write Process Full An...

Article analyzes Elasticsearch inverted index principle based on Lucene, compares forward index vs inverted index differences, covering core concepts like...

10/20/2024

big-dataelasticsearchelkinverted-index

Elasticsearch Near Real-time Search: Segment, Refresh, Fl...

Article details core mechanism of Elasticsearch near real-time search, including Lucene Segment, Memory Buffer, File System Cache, Refresh, Flush and Translog...

10/20/2024

big-dataelasticsearchelknrt

Spark Action Operations Overview

Comprehensive introduction to Spark RDD Action operations, covering data collection, statistical aggregation, element retrieval, storage output categories, and detailed explanation of Key-Value RDD...

10/19/2024

big-datasparkscaladata-engineering

Elasticsearch Aggregation Practice: Metrics Aggregations ...

Covers complete practice of Metrics Aggregations and Bucket Aggregations, applicable to common Elasticsearch 7.x / 8.x versions in 2025. Article starts with...

10/18/2024

big-dataelasticsearchelkaggregation