博客

记录技术探索与思考 · 共 655 篇

全部 big-datajavaaiartificial-intelligenceprogrammer-lifemachine-learningmysqldata-engineering后端flinkdistributedarchitecturepythondata-warehouseroboticssparkhivekafkascaladistributed-systemllm数据库hdfsembodied-aideep-learningspring消息队列langchainsystem-architecturemybatisperformance-optimizationelasticsearchmongodbhealthredisspring-bootrabbitmqmqhadoopelkflumestream-processing事务hbasemessagingrpc教程sklearncachinglarge-language-model缓存dubbojava-rabbitmqclickhousekylinmllibneo4jsqlrealtime-warehousecanal索引微服务tomcatprogrammermultimodalteslazookeeperdruiddataxormshardingsphereiocnutritionrobot-armindie-devnginxfastdfsrocketmqtime-managementapplicationscareer-growthetlguavajava-rocketmq优化learningquantizationmiddlewaredockerkudulogstashdecision-treesqoopairflow分库分表分片mycat存储引擎一致性fat-lossgptproduct-managercoffeebusiness-analysisautomationalgorithmcareer-and-growthcomputer-visionautonomous-drivingfsdqwenmapreducecrudbackend分布式事务并发事务失效图数据库memcachednettyinnodbsalarycareer-developmentcold-showerrunningproductivityluckinmedicalindustriallfplfp-batterybatteryevfitnesscareer-personal-growthocrdeepseekdeepseek-ocrprogramming-languagecloud-nativeyarndatastreamjdbcolapknnlinear-regressionnumpymonitoringgriffin设计模式数据映射读写分离主从复制高可用安全源码分析cqlevcacheservletaop负载均衡手写niomindfulnessmeditationexercisemuscle-gainreinforcement-learningagentconflictevaluationmoney-managementconsumptionsocial-mediadatingmemoryprice-warcottiptqqatqloraqwen2.5-vlmulti-dimensionalhistoryindustrial-robotagriculturehardwaresimulationsectorrosdeploymentslamvisual-inspectionlinuxwindowraftkibanaregularizationlogistic-regressionprometheusexporterzipper-tableatlasstate-managementdevopsservermaven注解开发sharding-jdbccap2pc3pcxasagaacidbsonexplain慢查询副本集部署认证集群oss阿里云源码netflix异步jmspaxosrmiengineeringphysiologyhot-showerpractical-guidetransformertensorflowreporttech-sharingproductstartupmethodologyteamworkconflict-resolutioncollaborationgtdtoolsdepositsavingsscreen-timehealth-managementchina-usculturemarriagepartnercoffee-beveragehomemade-coffeetasteperformancefine-tuningblip-2minigpt-4llavaalibabavitaminsfish-oilcalcium-supplementvitamin-cironcalciumfolic-acidchronic-diseasesupplementstcmwestern-medicineintegrative-medicineevolution-techtech-evolutionlakehousedata-meshserverlesstalentindustrytech-selectionevolutionunimatetechnologyhydraulic-driveai-collaborationclassificationservice-robothumanoid-robotlogisticscareerskillstrendsservicescaracobotmotorreducersensorplcmpccontroltrajectory-planningvisioncore-technologyperceptiondecision-makingfamilydatamarketchallengescommercializationfuture-trendsmeta-learninglifestylenmc-batterydegradationbody-fat-percentagebody-shapingstrength-trainingbody-fatmetabolismsympathetic-nerveparasympathetic-nerveautonomic-nervous-systemhrvtesting-platformapi-integrationautomotive3dtechmodel-yopen-sourceimitation-learningvision-algorithmominomni-modalomniresearchjava-21kotlingolangrustjavascriptnodek8sgeminicepsourcesinkdatasetmergetreeik-analyzerdslterm-queryfilteraggregationinverted-indexnrtgrokfilebeattezdata-miningcross-validationnormalizationevaluation-metricsridge-regressionlassogradient-descentgrafanavisualizationodsscddimension-tabledwddwsadsmemory-managementparallelismcontaineresp32home-assistantjenkinsgitlabcicddevops-devessaywebsiteastrofrontendxml映射sqlsession动态sqlmha故障切换高并发分布式主键扩容绑定表sql优化hint强制路由数据脱敏tccseata柔性事务sharding-proxy分布式数据库分片策略e-r分片配置文件schema.xml事务隔离级别transactional声明式事务编程式事务传播机制插件nosqljson数据库操作分页writeconcern聚合pipelinepagehelper通用mapperb树b+树应用场景选型templaterepository数据建模内嵌引用wiredtigerinmemory复制集oplog选举容器化sharding分片集群权限图论欧拉路径动态代理备份嵌入式数据库分布式文件系统云存储权限控制concurrenthashmaplruoom代理模式分布式缓存spymemcachedblockingqueueactivemq手写框架消息存储队列索引erlangjdk反向代理进程配置类加载ssljvm心跳检测io监控spi路由降级表空间线程模型存储结构undoredobinlogb+tree聚簇索引排序mvcckubernetesoffline-installpandaspipmicroservicesvoice

大数据-25 Sqoop 增量导入与 CDC 变化数据捕获原理

介绍 Sqoop 的 --incremental append 增量导入机制,并深入讲解 CDC(变化数据捕获)的核心概念、捕获方式对比及 Flink CDC、Debezium 等现代方案选型。

大数据-26 ZooKeeper 分布式协调框架简介与集群部署

介绍 ZooKeeper 的核心概念、Leader/Follower/Observer 角色分工、ZAB 协议原理,并演示 3 节点集群的安装与配置过程。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-23 Sqoop 部分导入:--query、--columns、--where 三种过滤方式

详解 Sqoop 从 MySQL 按条件导入部分数据到 HDFS 的三种方式:自定义查询、指定列、WHERE 条件过滤,并说明各自的适用场景与注意事项。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-24 Sqoop 与 Hive 集成:MySQL ↔ Hive 双向数据迁移

演示使用 Sqoop 将 MySQL 数据直接导入 Hive 表,以及从 Hive 导出数据回 MySQL,涵盖 --hive-import、--create-hive-table 等关键参数的用法。

大数据-21 Sqoop 数据迁移 ETL 工具入门与安装配置

介绍 Apache Sqoop 的核心原理、使用场景及在 Hadoop 集群上的安装配置步骤,帮助快速上手 MySQL 与 HDFS/Hive 之间的批量数据迁移。

大数据-22 Sqoop 实战:MySQL 全量数据导入 HDFS

通过完整示例演示使用 Sqoop 将 MySQL 表数据全量导入 HDFS,涵盖核心参数说明、MapReduce 并行机制及执行结果验证。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-19 Flume 采集 Hive 日志到 HDFS

使用 Flume exec source 实时追踪 Hive 日志文件,通过 memory channel 缓冲,配置 HDFS sink 按时间分区写入,实现日志数据自动落盘 HDFS。

大数据-20 Flume 双 Sink:日志同时写入 HDFS 与本地文件

通过 Flume 复制模式(Replicating Channel Selector)和三 Agent 级联架构,实现一份日志数据同时写入 HDFS 和本地文件,满足离线分析与实时备份双重需求。

大数据-17 Apache Flume 架构与核心概念

介绍 Apache Flume 的定位、核心组件(Source、Channel、Sink)、事件模型与常见数据流拓扑,以及安装配置方法。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-18 Flume 入门:NetCat Source + Memory Channel + Logger Sink

通过 Flume 最简单的 Hello World 案例,使用 netcat source 监听端口、memory channel 缓冲、logger sink 控制台输出,演示完整的 Source→Channel→Sink 数据流。

大数据-15 Hive Metastore 三种模式与远程部署

详解 Hive Metastore 的内嵌、本地、远程三种部署模式的区别,以及在三节点集群上配置高可用远程 Metastore 的完整步骤。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-16 Hive HiveServer2 配置与 Beeline 远程连接

介绍 HiveServer2 的架构与作用,配置 Hadoop 代理用户和 WebHDFS,通过 Beeline 客户端实现跨节点 JDBC 远程访问 Hive。

大数据-13 Hive DDL 与 DML 操作实战

系统讲解 Hive 的 DDL(建库建表、内部表与外部表)和 DML(数据加载、插入、查询)操作,包含完整 HiveQL 示例与配置优化。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-14 Hive HQL 进阶:数据导入导出与查询实战

深入讲解 Hive 的多种数据导入方式(LOAD/INSERT/外部表/Sqoop)、数据导出方法,以及聚合、过滤、排序等 HQL 查询操作的实际用法。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-11 MapReduce JOIN 四种实现策略

深入讲解 MapReduce 中 Reduce-Side Join、Map-Side Join、Semi-Join 和 Bloom Join 四种 JOIN 策略的原理与 Java 实现,分析各自适用场景和性能特点。

大数据-12 Hive 入门:架构原理与集群安装

介绍 Hive 数据仓库的核心概念、架构组成与优缺点,并详细讲解在三节点 Hadoop 集群上安装配置 Hive 2.3.9 的完整步骤。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-09 HDFS Java Client 实战:上传下载文件、目录扫描

使用 Hadoop HDFS Java Client API 进行文件操作:Maven 依赖配置、FileSystem/Path/Configuration 核心类,实现文件上传、下载、删除、列表扫描和进度条显示。

大数据-10 Java 实现 MapReduce WordCount 完整代码

从零实现 Hadoop MapReduce WordCount:Hadoop 序列化机制详解,编写 Mapper、Reducer、Driver 三大组件,Maven 项目配置,本地与集群运行完整代码。

大数据-07 HDFS 分布式文件系统 读写原理详解

深入解析 HDFS 架构:NameNode、DataNode、Client 角色分工,Block 存储机制,文件读写流程(Pipeline 写入与就近读取),以及 HDFS 基础命令速查。

大数据-08 HDFS 命令行实操 hadoop fs 完整命令详解

HDFS 命令行完整实操:hadoop fs 常用命令速查,包括目录操作、文件上传下载、权限管理,结合三节点集群实际演示。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。