博客

记录技术探索与思考 · 共 655 篇

全部 big-datajavaaiartificial-intelligenceprogrammer-lifemachine-learningmysqldata-engineering后端flinkdistributedarchitecturepythondata-warehouseroboticssparkhivekafkascaladistributed-systemllm数据库hdfsembodied-aideep-learningspring消息队列langchainsystem-architecturemybatisperformance-optimizationelasticsearchmongodbhealthredisspring-bootrabbitmqmqhadoopelkflumestream-processing事务hbasemessagingrpc教程sklearncachinglarge-language-model缓存dubbojava-rabbitmqclickhousekylinmllibneo4jsqlrealtime-warehousecanal索引微服务tomcatprogrammermultimodalteslazookeeperdruiddataxormshardingsphereiocnutritionrobot-armindie-devnginxfastdfsrocketmqtime-managementapplicationscareer-growthetlguavajava-rocketmq优化learningquantizationmiddlewaredockerkudulogstashdecision-treesqoopairflow分库分表分片mycat存储引擎一致性fat-lossgptproduct-managercoffeebusiness-analysisautomationalgorithmcareer-and-growthcomputer-visionautonomous-drivingfsdqwenmapreducecrudbackend分布式事务并发事务失效图数据库memcachednettyinnodbsalarycareer-developmentcold-showerrunningproductivityluckinmedicalindustriallfplfp-batterybatteryevfitnesscareer-personal-growthocrdeepseekdeepseek-ocrprogramming-languagecloud-nativeyarndatastreamjdbcolapknnlinear-regressionnumpymonitoringgriffin设计模式数据映射读写分离主从复制高可用安全源码分析cqlevcacheservletaop负载均衡手写niomindfulnessmeditationexercisemuscle-gainreinforcement-learningagentconflictevaluationmoney-managementconsumptionsocial-mediadatingmemoryprice-warcottiptqqatqloraqwen2.5-vlmulti-dimensionalhistoryindustrial-robotagriculturehardwaresimulationsectorrosdeploymentslamvisual-inspectionlinuxwindowraftkibanaregularizationlogistic-regressionprometheusexporterzipper-tableatlasstate-managementdevopsservermaven注解开发sharding-jdbccap2pc3pcxasagaacidbsonexplain慢查询副本集部署认证集群oss阿里云源码netflix异步jmspaxosrmiengineeringphysiologyhot-showerpractical-guidetransformertensorflowreporttech-sharingproductstartupmethodologyteamworkconflict-resolutioncollaborationgtdtoolsdepositsavingsscreen-timehealth-managementchina-usculturemarriagepartnercoffee-beveragehomemade-coffeetasteperformancefine-tuningblip-2minigpt-4llavaalibabavitaminsfish-oilcalcium-supplementvitamin-cironcalciumfolic-acidchronic-diseasesupplementstcmwestern-medicineintegrative-medicineevolution-techtech-evolutionlakehousedata-meshserverlesstalentindustrytech-selectionevolutionunimatetechnologyhydraulic-driveai-collaborationclassificationservice-robothumanoid-robotlogisticscareerskillstrendsservicescaracobotmotorreducersensorplcmpccontroltrajectory-planningvisioncore-technologyperceptiondecision-makingfamilydatamarketchallengescommercializationfuture-trendsmeta-learninglifestylenmc-batterydegradationbody-fat-percentagebody-shapingstrength-trainingbody-fatmetabolismsympathetic-nerveparasympathetic-nerveautonomic-nervous-systemhrvtesting-platformapi-integrationautomotive3dtechmodel-yopen-sourceimitation-learningvision-algorithmominomni-modalomniresearchjava-21kotlingolangrustjavascriptnodek8sgeminicepsourcesinkdatasetmergetreeik-analyzerdslterm-queryfilteraggregationinverted-indexnrtgrokfilebeattezdata-miningcross-validationnormalizationevaluation-metricsridge-regressionlassogradient-descentgrafanavisualizationodsscddimension-tabledwddwsadsmemory-managementparallelismcontaineresp32home-assistantjenkinsgitlabcicddevops-devessaywebsiteastrofrontendxml映射sqlsession动态sqlmha故障切换高并发分布式主键扩容绑定表sql优化hint强制路由数据脱敏tccseata柔性事务sharding-proxy分布式数据库分片策略e-r分片配置文件schema.xml事务隔离级别transactional声明式事务编程式事务传播机制插件nosqljson数据库操作分页writeconcern聚合pipelinepagehelper通用mapperb树b+树应用场景选型templaterepository数据建模内嵌引用wiredtigerinmemory复制集oplog选举容器化sharding分片集群权限图论欧拉路径动态代理备份嵌入式数据库分布式文件系统云存储权限控制concurrenthashmaplruoom代理模式分布式缓存spymemcachedblockingqueueactivemq手写框架消息存储队列索引erlangjdk反向代理进程配置类加载ssljvm心跳检测io监控spi路由降级表空间线程模型存储结构undoredobinlogb+tree聚簇索引排序mvcckubernetesoffline-installpandaspipmicroservicesvoice

大数据-85 Spark Streaming 入门:从 DStream 到 Structured Streamin...

介绍 Spark 实时计算的两代框架:DStream 微批处理模型的架构与局限,以及 Structured Streaming 如何通过无界表模型和 Catalyst 优化解决 EventTime 处理、API 一致性等问题。

大数据-86 Spark Streaming 数据源详解:文件流、Socket、RDD 队列流

全面讲解 Spark Streaming 三种基础数据源的原理与实现:文件流监控目录、Socket TCP 接入、RDD 队列模拟测试,附完整 Scala 代码示例。

深入浅出 MyBatis - 一级缓存 代码测试 与 原理探究 源码 Executor

详细介绍MyBatis一级缓存的工作原理、代码测试、失效场景以及源码分析。一级缓存是MyBatis默认开启的本地缓存,作用域为SqlSession级别。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

深入浅出 MyBatis - 二级缓存 代码测试 与 原理探究 源码 Executor

详细介绍MyBatis二级缓存的工作原理、开启配置、代码测试以及源码分析。二级缓存是基于Mapper的namespace的,多个SqlSession可以共享。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-219 Grafana 11.3.0 安装与启动实战:YUM 装 RPM、systemd 管理、登录与常见...

文章浏览阅读4k次,点赞34次,收藏20次。2026 年仍在使用 CentOS/RHEL 系(含兼容发行版)的运维/开发,给出 Grafana 11.3.0(grafana-enterprise-11.3.0-1.x86_64.rpm)通过 YUM 直接安装 RPM 的工程化落地流程:安装包来源、systemctl 启动与状态检查、默认 3000 端口访问与首次登录(admin/admin)...

大数据-220 离线数仓 数据仓库入门:四大特征、OLTP/OLAP差异与企业数仓架构要点

文章浏览阅读4.9k次,点赞24次,收藏20次。2026年工程实践,梳理数据仓库(数仓)的核心概念与落地关注点:从企业数据孤岛出发,解释数据仓库的四大特征——面向主题(Subject Oriented)、集成(Integrated)、相对稳定/非易失(Non-Volatile)、反映历史变化/时变(Time...

大数据-217 Prometheus 2.53.2 安装与配置实战:Scrape Targets、Exporter...

文章浏览阅读4.4k次,点赞15次,收藏25次。Prometheus 2.53.2(2025/2026 仍常见在存量环境)给出一套可复用的落地流程:在监控机下载并解压二进制,编写 prometheus.yml 完成 scrape_interval 与多 scrape_configs 目标配置,拉取多台服务器 node_exporter(9100) 指标,并通过 /targets 页面快速验证...

大数据-218 Prometheus Node Exporter 1.8.2 + Pushgateway 1.10...

常见的 Prometheus 监控落地场景:在 Rocky Linux(兼容 CentOS/RHEL)上安装 node_exporter-1.8.2 暴露主机指标,并接入 Prometheus(示例版本 2.53.2)完成 targets 采集;同时介绍 Pushgateway-1.10.0 的定位与边界:用于短期任务、cron、CI/CD、ETL 等无法长期暴露 /metrics 的作业,...

大数据-215 sklearn KMeans 关键属性与评估:cluster_centers_、inertia_、...

文章浏览阅读6.1k次,点赞30次,收藏32次。scikit-learn(sklearn)KMeans(2026)解释三个最常用对象:cluster_centers_(聚类中心)、inertia_(簇内平方和/Within-Cluster Sum of Squares)以及聚类评估指标...

大数据-216 KMeans 选 n_clusters:轮廓系数(Silhouette)实战 + init/n_i...

文章浏览阅读5.2k次,点赞32次,收藏26次。KMeans 选 n_clusters 方法:在候选簇数(如 2/4/6/8)上计算 silhouette_score 与 silhouette_samples,结合轮廓系数分布图与聚类散点图判断最优...

大数据-83 SparkSQL 语句实战:DataFrame 操作、SQL 查询与 Hive 集成

介绍 SparkSQL 的核心使用方式,包括 DataFrame API、SQL 查询语法、lateral view explode 等高级功能,以及如何通过 enableHiveSupport 集成 Hive 元数据与读写 Hive 表。

大数据-84 SparkSQL 内核原理:五种 Join 策略与 Catalyst 优化器解析

深入解析 SparkSQL 的五种 Join 执行策略(BHJ、SHJ、SMJ、Cartesian、BNLJ)的选择条件与适用场景,以及 Catalyst 优化器从 SQL 解析到代码生成的完整处理流程。

大数据-213 Python 手写 K-Means 聚类实战(鸢尾花 Iris 数据集):从距离函数到迭代收敛与坑点

文章浏览阅读4.5k次,点赞14次,收藏22次。Python K-Means 聚类实现:基于 NumPy 广播计算欧式距离平方和(distEclud),在特征范围内均匀采样初始化质心(randCent),并使用 Pandas 统一容器 result_set 记录「最短距离/当前簇/上次簇」,通过簇编号是否变化判断收敛,最终输出 centroids 与分簇结果。示例数据采用 Iris(鸢尾花)...

大数据-214 K-Means 聚类实战:自写算法验证 + sklearn KMeans 参数/labels_/f...

文章浏览阅读5.4k次,点赞22次,收藏18次。K-Means 聚类给出一套「可验证、可复现、可排错」的工程化流程:先用二维 testSet 数据集做算法验证(pd.read_table 读取、追加虚拟标签列、plt.scatter 可视化、绘制质心与聚类结果),再切换到 sklearn.cluster.KMeans 进行参数级理解与对照。核心关键词覆盖:K-Means、sklearn KM...

大数据-211 逻辑回归的 Scikit-Learn 实现:max_iter、分类方式与多元回归的优化方法

文章浏览阅读4.4k次,点赞10次,收藏19次。Scikit-Learn 中使用逻辑回归时,max_iter 控制最大迭代次数,影响模型的收敛速度和精度。如果训练未收敛,可能会收到警告提示需要增大 max_iter。不过,过高的迭代次数可能导致过拟合,影响测试集的表现。在二元逻辑回归中,multi_class 参数的选择也至关重要。OvR(One-vs-Rest)适用于大多数数据集,而 mu...

大数据-212 K-Means 聚类实战指南:从无监督概念到 Inertia、K 值选择与避坑

文章浏览阅读5.8k次,点赞39次,收藏17次。聚类算法 K-Means,梳理监督学习与无监督学习的差异(是否需要标签 Y),并给出聚类在客户细分、RFM 分析、图像/语音/视频压缩、异常检测等工程场景的落地路径。重点解释 K-Means 的关键概念「簇与质心」、迭代过程(分配样本→更新质心→收敛)、以及评价目标簇内误差平方和 Inertia。同时给出 K 值选择的工程方法(肘部法、轮廓系数...

大数据-209 深度理解逻辑回归(Logistic Regression)与梯度下降优化算法

逻辑回归(Logistic Regression, LR)是机器学习中重要的分类算法,广泛应用于二元分类任务,如情感分析、疾病预测、垃圾邮件检测等场景。尽管其名字中有"回归"二字,实则是一种分类方法。LR通过对数几率函数(Logistic Function)将预测值映射到0到1之间,计算样本属于某个类别的概率。为了优化LR模型,常用的算法是梯度下降法,它通过不断调整模型参数以最小化损失函...

大数据-210 如何在Scikit-Learn中实现逻辑回归及正则化详解(L1与L2)

但随着C的逐渐变大,正则化的强度越来越小,模型在训练集和测试集上表现呈现了上升趋势,直到C=0.8左右,训练集上的表现依然走高,但模型在未知数据集上的表现就开始下跌,这时候就是出现了过拟合。正则化参数,LogisticRegression默认带了正则化项,penalty参数可选择的值有1和2,分别对应L1的正则化和L2的正则化,默认是L2的正则化。可以看出,当我们选择L1正则化的时候,许多特...

大数据-81 SparkSQL 核心抽象:RDD、DataFrame、Dataset 与 SparkSession 详解

深入对比 Spark 三大数据抽象 RDD、DataFrame、Dataset 的特性与适用场景,介绍 SparkSession 统一入口,并演示各抽象之间的相互转换方法。

大数据-82 SparkSQL 算子详解:Transformation 与 Action 操作实战

系统梳理 SparkSQL 的 Transformation 和 Action 算子,涵盖 select、filter、join、groupBy、union 等操作,并通过实际测试用例演示其用法与性能优化技巧。