博客
记录技术探索与思考 · 共 655 篇
大数据-85 Spark Streaming 入门:从 DStream 到 Structured Streamin...
介绍 Spark 实时计算的两代框架:DStream 微批处理模型的架构与局限,以及 Structured Streaming 如何通过无界表模型和 Catalyst 优化解决 EventTime 处理、API 一致性等问题。
大数据-86 Spark Streaming 数据源详解:文件流、Socket、RDD 队列流
全面讲解 Spark Streaming 三种基础数据源的原理与实现:文件流监控目录、Socket TCP 接入、RDD 队列模拟测试,附完整 Scala 代码示例。
深入浅出 MyBatis - 一级缓存 代码测试 与 原理探究 源码 Executor
详细介绍MyBatis一级缓存的工作原理、代码测试、失效场景以及源码分析。一级缓存是MyBatis默认开启的本地缓存,作用域为SqlSession级别。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
深入浅出 MyBatis - 二级缓存 代码测试 与 原理探究 源码 Executor
详细介绍MyBatis二级缓存的工作原理、开启配置、代码测试以及源码分析。二级缓存是基于Mapper的namespace的,多个SqlSession可以共享。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-219 Grafana 11.3.0 安装与启动实战:YUM 装 RPM、systemd 管理、登录与常见...
文章浏览阅读4k次,点赞34次,收藏20次。2026 年仍在使用 CentOS/RHEL 系(含兼容发行版)的运维/开发,给出 Grafana 11.3.0(grafana-enterprise-11.3.0-1.x86_64.rpm)通过 YUM 直接安装 RPM 的工程化落地流程:安装包来源、systemctl 启动与状态检查、默认 3000 端口访问与首次登录(admin/admin)...
大数据-220 离线数仓 数据仓库入门:四大特征、OLTP/OLAP差异与企业数仓架构要点
文章浏览阅读4.9k次,点赞24次,收藏20次。2026年工程实践,梳理数据仓库(数仓)的核心概念与落地关注点:从企业数据孤岛出发,解释数据仓库的四大特征——面向主题(Subject Oriented)、集成(Integrated)、相对稳定/非易失(Non-Volatile)、反映历史变化/时变(Time...
大数据-217 Prometheus 2.53.2 安装与配置实战:Scrape Targets、Exporter...
文章浏览阅读4.4k次,点赞15次,收藏25次。Prometheus 2.53.2(2025/2026 仍常见在存量环境)给出一套可复用的落地流程:在监控机下载并解压二进制,编写 prometheus.yml 完成 scrape_interval 与多 scrape_configs 目标配置,拉取多台服务器 node_exporter(9100) 指标,并通过 /targets 页面快速验证...
大数据-218 Prometheus Node Exporter 1.8.2 + Pushgateway 1.10...
常见的 Prometheus 监控落地场景:在 Rocky Linux(兼容 CentOS/RHEL)上安装 node_exporter-1.8.2 暴露主机指标,并接入 Prometheus(示例版本 2.53.2)完成 targets 采集;同时介绍 Pushgateway-1.10.0 的定位与边界:用于短期任务、cron、CI/CD、ETL 等无法长期暴露 /metrics 的作业,...
大数据-215 sklearn KMeans 关键属性与评估:cluster_centers_、inertia_、...
文章浏览阅读6.1k次,点赞30次,收藏32次。scikit-learn(sklearn)KMeans(2026)解释三个最常用对象:cluster_centers_(聚类中心)、inertia_(簇内平方和/Within-Cluster Sum of Squares)以及聚类评估指标...
大数据-216 KMeans 选 n_clusters:轮廓系数(Silhouette)实战 + init/n_i...
文章浏览阅读5.2k次,点赞32次,收藏26次。KMeans 选 n_clusters 方法:在候选簇数(如 2/4/6/8)上计算 silhouette_score 与 silhouette_samples,结合轮廓系数分布图与聚类散点图判断最优...
大数据-83 SparkSQL 语句实战:DataFrame 操作、SQL 查询与 Hive 集成
介绍 SparkSQL 的核心使用方式,包括 DataFrame API、SQL 查询语法、lateral view explode 等高级功能,以及如何通过 enableHiveSupport 集成 Hive 元数据与读写 Hive 表。
大数据-84 SparkSQL 内核原理:五种 Join 策略与 Catalyst 优化器解析
深入解析 SparkSQL 的五种 Join 执行策略(BHJ、SHJ、SMJ、Cartesian、BNLJ)的选择条件与适用场景,以及 Catalyst 优化器从 SQL 解析到代码生成的完整处理流程。
大数据-213 Python 手写 K-Means 聚类实战(鸢尾花 Iris 数据集):从距离函数到迭代收敛与坑点
文章浏览阅读4.5k次,点赞14次,收藏22次。Python K-Means 聚类实现:基于 NumPy 广播计算欧式距离平方和(distEclud),在特征范围内均匀采样初始化质心(randCent),并使用 Pandas 统一容器 result_set 记录「最短距离/当前簇/上次簇」,通过簇编号是否变化判断收敛,最终输出 centroids 与分簇结果。示例数据采用 Iris(鸢尾花)...
大数据-214 K-Means 聚类实战:自写算法验证 + sklearn KMeans 参数/labels_/f...
文章浏览阅读5.4k次,点赞22次,收藏18次。K-Means 聚类给出一套「可验证、可复现、可排错」的工程化流程:先用二维 testSet 数据集做算法验证(pd.read_table 读取、追加虚拟标签列、plt.scatter 可视化、绘制质心与聚类结果),再切换到 sklearn.cluster.KMeans 进行参数级理解与对照。核心关键词覆盖:K-Means、sklearn KM...
大数据-211 逻辑回归的 Scikit-Learn 实现:max_iter、分类方式与多元回归的优化方法
文章浏览阅读4.4k次,点赞10次,收藏19次。Scikit-Learn 中使用逻辑回归时,max_iter 控制最大迭代次数,影响模型的收敛速度和精度。如果训练未收敛,可能会收到警告提示需要增大 max_iter。不过,过高的迭代次数可能导致过拟合,影响测试集的表现。在二元逻辑回归中,multi_class 参数的选择也至关重要。OvR(One-vs-Rest)适用于大多数数据集,而 mu...
大数据-212 K-Means 聚类实战指南:从无监督概念到 Inertia、K 值选择与避坑
文章浏览阅读5.8k次,点赞39次,收藏17次。聚类算法 K-Means,梳理监督学习与无监督学习的差异(是否需要标签 Y),并给出聚类在客户细分、RFM 分析、图像/语音/视频压缩、异常检测等工程场景的落地路径。重点解释 K-Means 的关键概念「簇与质心」、迭代过程(分配样本→更新质心→收敛)、以及评价目标簇内误差平方和 Inertia。同时给出 K 值选择的工程方法(肘部法、轮廓系数...
大数据-209 深度理解逻辑回归(Logistic Regression)与梯度下降优化算法
逻辑回归(Logistic Regression, LR)是机器学习中重要的分类算法,广泛应用于二元分类任务,如情感分析、疾病预测、垃圾邮件检测等场景。尽管其名字中有"回归"二字,实则是一种分类方法。LR通过对数几率函数(Logistic Function)将预测值映射到0到1之间,计算样本属于某个类别的概率。为了优化LR模型,常用的算法是梯度下降法,它通过不断调整模型参数以最小化损失函...
大数据-210 如何在Scikit-Learn中实现逻辑回归及正则化详解(L1与L2)
但随着C的逐渐变大,正则化的强度越来越小,模型在训练集和测试集上表现呈现了上升趋势,直到C=0.8左右,训练集上的表现依然走高,但模型在未知数据集上的表现就开始下跌,这时候就是出现了过拟合。正则化参数,LogisticRegression默认带了正则化项,penalty参数可选择的值有1和2,分别对应L1的正则化和L2的正则化,默认是L2的正则化。可以看出,当我们选择L1正则化的时候,许多特...
大数据-81 SparkSQL 核心抽象:RDD、DataFrame、Dataset 与 SparkSession 详解
深入对比 Spark 三大数据抽象 RDD、DataFrame、Dataset 的特性与适用场景,介绍 SparkSession 统一入口,并演示各抽象之间的相互转换方法。
大数据-82 SparkSQL 算子详解:Transformation 与 Action 操作实战
系统梳理 SparkSQL 的 Transformation 和 Action 算子,涵盖 select、filter、join、groupBy、union 等操作,并通过实际测试用例演示其用法与性能优化技巧。