博客

记录技术探索与思考 · 共 655 篇

全部 big-data java ai artificial-intelligence programmer-life machine-learning mysql data-engineering 后端 flink distributed architecture python data-warehouse robotics spark hive kafka scala distributed-system llm 数据库 hdfs embodied-ai deep-learning spring 消息队列 langchain system-architecture mybatis performance-optimization elasticsearch mongodb health redis spring-boot rabbitmq mq hadoop elk flume stream-processing 事务 hbase messaging rpc 教程 sklearn caching large-language-model 缓存 dubbo java-rabbitmq clickhouse kylin mllib neo4j sql realtime-warehouse canal 索引微服务 tomcat programmer multimodal tesla zookeeper druid datax orm shardingsphere ioc nutrition robot-arm indie-dev nginx fastdfs rocketmq time-management applications career-growth etl guava java-rocketmq 优化 learning quantization middleware docker kudu logstash decision-tree sqoop airflow 分库分表分片 mycat 存储引擎一致性 fat-loss gpt product-manager coffee business-analysis automation algorithm career-and-growth computer-vision autonomous-driving fsd qwen mapreduce crud backend 分布式事务并发事务失效图数据库 memcached netty innodb salary career-development cold-shower running productivity luckin medical industrial lfp lfp-battery battery ev fitness career-personal-growth ocr deepseek deepseek-ocr programming-language cloud-native yarn datastream jdbc olap knn linear-regression numpy monitoring griffin 设计模式数据映射读写分离主从复制高可用安全源码分析 cql evcache servlet aop 负载均衡手写 nio mindfulness meditation exercise muscle-gain reinforcement-learning agent conflict evaluation money-management consumption social-media dating memory price-war cotti ptq qat qlora qwen2.5-vl multi-dimensional history industrial-robot agriculture hardware simulation sector ros deployment slam visual-inspection linux window raft kibana regularization logistic-regression prometheus exporter zipper-table atlas state-management devops server maven 注解开发 sharding-jdbc cap 2pc 3pc xa saga acid bson explain 慢查询副本集部署认证集群 oss 阿里云源码 netflix 异步 jms paxos rmi engineering physiology hot-shower practical-guide transformer tensorflow report tech-sharing product startup methodology teamwork conflict-resolution collaboration gtd tools deposit savings screen-time health-management china-us culture marriage partner coffee-beverage homemade-coffee taste performance fine-tuning blip-2 minigpt-4 llava alibaba vitamins fish-oil calcium-supplement vitamin-c iron calcium folic-acid chronic-disease supplements tcm western-medicine integrative-medicine evolution-tech tech-evolution lakehouse data-mesh serverless talent industry tech-selection evolution unimate technology hydraulic-drive ai-collaboration classification service-robot humanoid-robot logistics career skills trends service scara cobot motor reducer sensor plc mpc control trajectory-planning vision core-technology perception decision-making family data market challenges commercialization future-trends meta-learning lifestyle nmc-battery degradation body-fat-percentage body-shaping strength-training body-fat metabolism sympathetic-nerve parasympathetic-nerve autonomic-nervous-system hrv testing-platform api-integration automotive 3d tech model-y open-source imitation-learning vision-algorithm omin omni-modal omni research java-21 kotlin golang rust javascript node k8s gemini cep source sink dataset mergetree ik-analyzer dsl term-query filter aggregation inverted-index nrt grok filebeat tez data-mining cross-validation normalization evaluation-metrics ridge-regression lasso gradient-descent grafana visualization ods scd dimension-table dwd dws ads memory-management parallelism container esp32 home-assistant jenkins gitlab cicd devops-dev essay website astro frontend xml映射 sqlsession 动态sql mha 故障切换高并发分布式主键扩容绑定表 sql优化 hint 强制路由数据脱敏 tcc seata 柔性事务 sharding-proxy 分布式数据库分片策略 e-r分片配置文件 schema.xml 事务隔离级别 transactional 声明式事务编程式事务传播机制插件 nosql json 数据库操作分页 writeconcern 聚合 pipeline pagehelper 通用mapper b树 b+树应用场景选型 template repository 数据建模内嵌引用 wiredtiger inmemory 复制集 oplog 选举容器化 sharding 分片集群权限图论欧拉路径动态代理备份嵌入式数据库分布式文件系统云存储权限控制 concurrenthashmap lru oom 代理模式分布式缓存 spymemcached blockingqueue activemq 手写框架消息存储队列索引 erlang jdk 反向代理进程配置类加载 ssl jvm 心跳检测 io 监控 spi 路由降级表空间线程模型存储结构 undo redo binlog b+tree 聚簇索引排序锁 mvcc kubernetes offline-install pandas pip microservices voice

大数据-85 Spark Streaming 入门：从 DStream 到 Structured Streamin...

介绍 Spark 实时计算的两代框架：DStream 微批处理模型的架构与局限，以及 Structured Streaming 如何通过无界表模型和 Catalyst 优化解决 EventTime 处理、API 一致性等问题。

2024/11/13

big-datasparkscalastream-processingdata-engineering

大数据-86 Spark Streaming 数据源详解：文件流、Socket、RDD 队列流

全面讲解 Spark Streaming 三种基础数据源的原理与实现：文件流监控目录、Socket TCP 接入、RDD 队列模拟测试，附完整 Scala 代码示例。

2024/11/13

big-datasparkscalastream-processingkafkadata-engineering

深入浅出 MyBatis - 一级缓存代码测试与原理探究源码 Executor

详细介绍MyBatis一级缓存的工作原理、代码测试、失效场景以及源码分析。一级缓存是MyBatis默认开启的本地缓存，作用域为SqlSession级别。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/11/13

JavaMyBatis缓存

深入浅出 MyBatis - 二级缓存代码测试与原理探究源码 Executor

详细介绍MyBatis二级缓存的工作原理、开启配置、代码测试以及源码分析。二级缓存是基于Mapper的namespace的，多个SqlSession可以共享。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/11/13

JavaMyBatis缓存

大数据-219 Grafana 11.3.0 安装与启动实战：YUM 装 RPM、systemd 管理、登录与常见...

文章浏览阅读4k次，点赞34次，收藏20次。2026 年仍在使用 CentOS/RHEL 系（含兼容发行版）的运维/开发，给出 Grafana 11.3.0（grafana-enterprise-11.3.0-1.x86_64.rpm）通过 YUM 直接安装 RPM 的工程化落地流程：安装包来源、systemctl 启动与状态检查、默认 3000 端口访问与首次登录（admin/admin）...

2024/11/12

big-datagrafanamonitoringvisualization

大数据-220 离线数仓数据仓库入门：四大特征、OLTP/OLAP差异与企业数仓架构要点

文章浏览阅读4.9k次，点赞24次，收藏20次。2026年工程实践，梳理数据仓库（数仓）的核心概念与落地关注点：从企业数据孤岛出发，解释数据仓库的四大特征——面向主题（Subject Oriented）、集成（Integrated）、相对稳定/非易失（Non-Volatile）、反映历史变化/时变（Time...

2024/11/12

big-datadata-warehouseolapetl

大数据-217 Prometheus 2.53.2 安装与配置实战：Scrape Targets、Exporter...

文章浏览阅读4.4k次，点赞15次，收藏25次。Prometheus 2.53.2（2025/2026 仍常见在存量环境）给出一套可复用的落地流程：在监控机下载并解压二进制，编写 prometheus.yml 完成 scrape_interval 与多 scrape_configs 目标配置，拉取多台服务器 node_exporter(9100) 指标，并通过 /targets 页面快速验证...

2024/11/11

big-dataprometheusmonitoringexporter

大数据-218 Prometheus Node Exporter 1.8.2 + Pushgateway 1.10...

常见的 Prometheus 监控落地场景：在 Rocky Linux（兼容 CentOS/RHEL）上安装 node_exporter-1.8.2 暴露主机指标，并接入 Prometheus（示例版本 2.53.2）完成 targets 采集；同时介绍 Pushgateway-1.10.0 的定位与边界：用于短期任务、cron、CI/CD、ETL 等无法长期暴露 /metrics 的作业，...

2024/11/11

big-dataprometheusmonitoringexporter

大数据-215 sklearn KMeans 关键属性与评估：cluster_centers_、inertia_、...

文章浏览阅读6.1k次，点赞30次，收藏32次。scikit-learn（sklearn）KMeans（2026）解释三个最常用对象：cluster_centers_（聚类中心）、inertia_（簇内平方和/Within-Cluster Sum of Squares）以及聚类评估指标...

2024/11/9

big-datamachine-learningsklearnpython

大数据-216 KMeans 选 n_clusters：轮廓系数（Silhouette）实战 + init/n_i...

文章浏览阅读5.2k次，点赞32次，收藏26次。KMeans 选 n_clusters 方法：在候选簇数（如 2/4/6/8）上计算 silhouette_score 与 silhouette_samples，结合轮廓系数分布图与聚类散点图判断最优...

2024/11/9

big-datamachine-learningsklearnpython

大数据-83 SparkSQL 语句实战：DataFrame 操作、SQL 查询与 Hive 集成

介绍 SparkSQL 的核心使用方式，包括 DataFrame API、SQL 查询语法、lateral view explode 等高级功能，以及如何通过 enableHiveSupport 集成 Hive 元数据与读写 Hive 表。

2024/11/9

big-datasparkscalasqlhivedata-engineering

大数据-84 SparkSQL 内核原理：五种 Join 策略与 Catalyst 优化器解析

深入解析 SparkSQL 的五种 Join 执行策略（BHJ、SHJ、SMJ、Cartesian、BNLJ）的选择条件与适用场景，以及 Catalyst 优化器从 SQL 解析到代码生成的完整处理流程。

2024/11/9

big-datasparkscalasqldistributed-systemdata-engineering

大数据-213 Python 手写 K-Means 聚类实战（鸢尾花 Iris 数据集）：从距离函数到迭代收敛与坑点

文章浏览阅读4.5k次，点赞14次，收藏22次。Python K-Means 聚类实现：基于 NumPy 广播计算欧式距离平方和（distEclud），在特征范围内均匀采样初始化质心（randCent），并使用 Pandas 统一容器 result_set 记录「最短距离/当前簇/上次簇」，通过簇编号是否变化判断收敛，最终输出 centroids 与分簇结果。示例数据采用 Iris（鸢尾花）...

2024/11/8

big-datamachine-learningsklearnpython

大数据-214 K-Means 聚类实战：自写算法验证 + sklearn KMeans 参数/labels_/f...

文章浏览阅读5.4k次，点赞22次，收藏18次。K-Means 聚类给出一套「可验证、可复现、可排错」的工程化流程：先用二维 testSet 数据集做算法验证（pd.read_table 读取、追加虚拟标签列、plt.scatter 可视化、绘制质心与聚类结果），再切换到 sklearn.cluster.KMeans 进行参数级理解与对照。核心关键词覆盖：K-Means、sklearn KM...

2024/11/8

big-datamachine-learningsklearnpython

大数据-211 逻辑回归的 Scikit-Learn 实现：max_iter、分类方式与多元回归的优化方法

文章浏览阅读4.4k次，点赞10次，收藏19次。Scikit-Learn 中使用逻辑回归时，max_iter 控制最大迭代次数，影响模型的收敛速度和精度。如果训练未收敛，可能会收到警告提示需要增大 max_iter。不过，过高的迭代次数可能导致过拟合，影响测试集的表现。在二元逻辑回归中，multi_class 参数的选择也至关重要。OvR（One-vs-Rest）适用于大多数数据集，而 mu...

2024/11/7

big-datamachine-learningsklearnpython

大数据-212 K-Means 聚类实战指南：从无监督概念到 Inertia、K 值选择与避坑

文章浏览阅读5.8k次，点赞39次，收藏17次。聚类算法 K-Means，梳理监督学习与无监督学习的差异（是否需要标签 Y），并给出聚类在客户细分、RFM 分析、图像/语音/视频压缩、异常检测等工程场景的落地路径。重点解释 K-Means 的关键概念「簇与质心」、迭代过程（分配样本→更新质心→收敛）、以及评价目标簇内误差平方和 Inertia。同时给出 K 值选择的工程方法（肘部法、轮廓系数...

2024/11/7

big-datamachine-learningsklearnpython

大数据-209 深度理解逻辑回归（Logistic Regression）与梯度下降优化算法

逻辑回归（Logistic Regression, LR）是机器学习中重要的分类算法，广泛应用于二元分类任务，如情感分析、疾病预测、垃圾邮件检测等场景。尽管其名字中有"回归"二字，实则是一种分类方法。LR通过对数几率函数（Logistic Function）将预测值映射到0到1之间，计算样本属于某个类别的概率。为了优化LR模型，常用的算法是梯度下降法，它通过不断调整模型参数以最小化损失函...

2024/11/6

big-datamachine-learninglogistic-regressiongradient-descentpython

大数据-210 如何在Scikit-Learn中实现逻辑回归及正则化详解（L1与L2）

但随着C的逐渐变大，正则化的强度越来越小，模型在训练集和测试集上表现呈现了上升趋势，直到C=0.8左右，训练集上的表现依然走高，但模型在未知数据集上的表现就开始下跌，这时候就是出现了过拟合。正则化参数，LogisticRegression默认带了正则化项，penalty参数可选择的值有1和2，分别对应L1的正则化和L2的正则化，默认是L2的正则化。可以看出，当我们选择L1正则化的时候，许多特...

2024/11/6

big-datamachine-learninglogistic-regressionsklearnregularization