博客

记录技术探索与思考 · 共 655 篇

全部 big-datajavaaiartificial-intelligenceprogrammer-lifemachine-learningmysqldata-engineering后端flinkdistributedarchitecturepythondata-warehouseroboticssparkhivekafkascaladistributed-systemllm数据库hdfsembodied-aideep-learningspring消息队列langchainsystem-architecturemybatisperformance-optimizationelasticsearchmongodbhealthredisspring-bootrabbitmqmqhadoopelkflumestream-processing事务hbasemessagingrpc教程sklearncachinglarge-language-model缓存dubbojava-rabbitmqclickhousekylinmllibneo4jsqlrealtime-warehousecanal索引微服务tomcatprogrammermultimodalteslazookeeperdruiddataxormshardingsphereiocnutritionrobot-armindie-devnginxfastdfsrocketmqtime-managementapplicationscareer-growthetlguavajava-rocketmq优化learningquantizationmiddlewaredockerkudulogstashdecision-treesqoopairflow分库分表分片mycat存储引擎一致性fat-lossgptproduct-managercoffeebusiness-analysisautomationalgorithmcareer-and-growthcomputer-visionautonomous-drivingfsdqwenmapreducecrudbackend分布式事务并发事务失效图数据库memcachednettyinnodbsalarycareer-developmentcold-showerrunningproductivityluckinmedicalindustriallfplfp-batterybatteryevfitnesscareer-personal-growthocrdeepseekdeepseek-ocrprogramming-languagecloud-nativeyarndatastreamjdbcolapknnlinear-regressionnumpymonitoringgriffin设计模式数据映射读写分离主从复制高可用安全源码分析cqlevcacheservletaop负载均衡手写niomindfulnessmeditationexercisemuscle-gainreinforcement-learningagentconflictevaluationmoney-managementconsumptionsocial-mediadatingmemoryprice-warcottiptqqatqloraqwen2.5-vlmulti-dimensionalhistoryindustrial-robotagriculturehardwaresimulationsectorrosdeploymentslamvisual-inspectionlinuxwindowraftkibanaregularizationlogistic-regressionprometheusexporterzipper-tableatlasstate-managementdevopsservermaven注解开发sharding-jdbccap2pc3pcxasagaacidbsonexplain慢查询副本集部署认证集群oss阿里云源码netflix异步jmspaxosrmiengineeringphysiologyhot-showerpractical-guidetransformertensorflowreporttech-sharingproductstartupmethodologyteamworkconflict-resolutioncollaborationgtdtoolsdepositsavingsscreen-timehealth-managementchina-usculturemarriagepartnercoffee-beveragehomemade-coffeetasteperformancefine-tuningblip-2minigpt-4llavaalibabavitaminsfish-oilcalcium-supplementvitamin-cironcalciumfolic-acidchronic-diseasesupplementstcmwestern-medicineintegrative-medicineevolution-techtech-evolutionlakehousedata-meshserverlesstalentindustrytech-selectionevolutionunimatetechnologyhydraulic-driveai-collaborationclassificationservice-robothumanoid-robotlogisticscareerskillstrendsservicescaracobotmotorreducersensorplcmpccontroltrajectory-planningvisioncore-technologyperceptiondecision-makingfamilydatamarketchallengescommercializationfuture-trendsmeta-learninglifestylenmc-batterydegradationbody-fat-percentagebody-shapingstrength-trainingbody-fatmetabolismsympathetic-nerveparasympathetic-nerveautonomic-nervous-systemhrvtesting-platformapi-integrationautomotive3dtechmodel-yopen-sourceimitation-learningvision-algorithmominomni-modalomniresearchjava-21kotlingolangrustjavascriptnodek8sgeminicepsourcesinkdatasetmergetreeik-analyzerdslterm-queryfilteraggregationinverted-indexnrtgrokfilebeattezdata-miningcross-validationnormalizationevaluation-metricsridge-regressionlassogradient-descentgrafanavisualizationodsscddimension-tabledwddwsadsmemory-managementparallelismcontaineresp32home-assistantjenkinsgitlabcicddevops-devessaywebsiteastrofrontendxml映射sqlsession动态sqlmha故障切换高并发分布式主键扩容绑定表sql优化hint强制路由数据脱敏tccseata柔性事务sharding-proxy分布式数据库分片策略e-r分片配置文件schema.xml事务隔离级别transactional声明式事务编程式事务传播机制插件nosqljson数据库操作分页writeconcern聚合pipelinepagehelper通用mapperb树b+树应用场景选型templaterepository数据建模内嵌引用wiredtigerinmemory复制集oplog选举容器化sharding分片集群权限图论欧拉路径动态代理备份嵌入式数据库分布式文件系统云存储权限控制concurrenthashmaplruoom代理模式分布式缓存spymemcachedblockingqueueactivemq手写框架消息存储队列索引erlangjdk反向代理进程配置类加载ssljvm心跳检测io监控spi路由降级表空间线程模型存储结构undoredobinlogb+tree聚簇索引排序mvcckubernetesoffline-installpandaspipmicroservicesvoice

大数据-243 离线数仓 - 实战电商核心交易增量导入(DataX - HDFS - Hive 分区)

使用 DataX(MySQLReader + HDFSWriter)从 MySQL 抽取订单表、订单明细表、产品信息表的日增量数据,落地到 HDFS,并以 dt=yyyy-MM-dd 目录实现分区化存储,后续通过 Hive alter table ... add partition 完成 ODS 分区挂载。核心指标覆盖订单数、商品数、支付金额。

深入浅出 MyBatis - 用到的设计模式 源码剖析 代理设计模式

详细介绍代理设计模式的概念、分类和MyBatis中的具体体现,包括静态代理和动态代理的代码实现,以及MapperProxy的源码分析。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-242 离线数仓 - DataX 实战:MySQL 全量/增量导入 HDFS + Hive 分区

文章浏览阅读6k次,点赞22次,收藏14次。DataX(mysqlreader + hdfswriter)将 MySQL 电商业务库按"全量/增量"两类策略抽取到 HDFS,并在 Hive 中以 dt=yyyy-mm-dd 进行分区管理。针对维表/小表(如商品分类、店铺、组织、支付方式)采用每日全量导出形成新分区;针对事实表/大表(订单、订单商品、商品信息)基于可区分每日新增的字段执行增...

Neo4j + Spring Boot 实战:从 Driver 到 Repository 的整合与踩坑

Spring Boot 整合 Neo4j 完整指南:Java Driver、Neo4jTemplate、Repository 实战。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

深入浅出 MyBatis - 用到的设计模式 源码剖析 建造者模式、工厂模式

详细介绍MyBatis源码中使用的设计模式,包括建造者模式、工厂方法模式、单例模式、代理模式、组合模式等,以及在MyBatis中的具体体现。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-241 离线数仓 - 实战:电商核心交易数据模型与 MySQL 源表设计(订单/商品/品类/店铺/支付)

文章浏览阅读4.4k次,点赞28次,收藏16次。围绕订单数、商品数、支付金额三大指标,按销售区域与商品类型(三级品类)拆解分析维度。基于 trade_orders、order_product、product_info、product_category、shops、shop_admin_org、payments 等表,明确主键与关联键(orderId / productId / shopId ...

大数据-95 Flink State 与 Checkpoint:状态管理、容错机制与 Savepoint

Flink 有状态计算详解:Keyed State、Operator State、Checkpoint 配置、Savepoint 备份与恢复、生产环境实践。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-240 离线数仓 广告业务 Hive ADS 实战:DataX 将 HDFS 分区表导出到 MySQL

使用 DataX 将 Hive ADS 层数据导出到 MySQL 的完整方案。涵盖 ADS 装载、DataX 配置、MySQL 建表、Shell 脚本参数化执行,以及常见报错定位与修复清单。

Neo4j 访问方式实战:嵌入式 vs 服务器(含 Java 示例与踩坑)

Neo4j 嵌入式数据库与服务器模式对比,Java API 访问示例。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-239 离线数仓 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载

使用 Flume Agent 采集 event 日志并写入 HDFS,再通过 Hive 脚本按日期完成 ODS 层与 DWD 层的数据装载。内容覆盖 Flume Agent 的 Source、Channel、Sink 基本结构,日志文件上传、Flume 启动命令、HDFS 落盘验证。

Neo4j 备份与恢复 + 预热与执行计划实战

Neo4j 数据库备份恢复、数据预热与执行计划分析。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-238 离线数仓 广告业务 Hive 分析实战:ADS 点击率、购买率与 Top100 排名避坑

基于 Hive 离线数仓实现广告曝光、点击、购买的分时统计,完成点击率 CTR、购买率 CVR 与广告效果 Top100 排名分析。涵盖 ADS 层建表、分区装载、CASE WHEN 行转列、窗口函数排名等典型写法。

大数据-93 Flink Streaming 入门:DataStream API 与程序结构

Flink DataStream API 入门指南,程序执行流程、环境获取、数据源定义、算子链与执行模式详解,通过 WordCount 案例演示流处理程序开发。

大数据-94 Flink Window 与 Watermark:时间窗口、滚动滑动、会话窗口与迟到数据处理

Flink 时间窗口全面解析:滚动窗口、滑动窗口、会话窗口、Watermark 原理与生成策略、迟到数据处理机制。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-237 离线数仓 Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地

Hive 离线数仓广告业务实战,结合 Flume + Hive + UDF + Parquet 的典型链路,演示如何将原始事件日志从 ODS 层映射到 Hive 外部表,再在 DWD 层完成事件明细拆解、广告行为过滤与广告宽表构建。

大数据-236 离线数仓 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程

基于 Hadoop + Hive + HDFS + DataX + MySQL 的离线数仓实战,涵盖会员指标测试(活跃/新增/留存)、HDFS 导出、DataX 同步至 MySQL,以及广告业务 ODS/DWD/ADS 全流程建模。

Neo4j 事务、索引与约束实战:语法、并发陷阱与速修清单

Neo4j 事务处理、索引创建、约束设置与并发问题排查。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-235 离线数仓 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路

演示一套从日志采集到会员指标分析的完整链路,涵盖 Flume Taildir 监听、HDFS 分区存储、Hive 外部表加载、ODS/DWD/DWS/ADS 分层处理,支撑活跃会员、新增会员、会员留存等指标计算。

大数据-91 Flink 安装部署:Local、Standalone、YARN 三种模式详解

Apache Flink 本地安装、Standalone 集群部署、与 YARN 集成三种部署模式完整教程,包含环境配置、参数调优与常见问题解决。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-92 Flink on YARN 部署:环境准备、资源申请与任务提交

Flink 在 YARN 集群上的三种部署模式详解:Session、Application、Per-Job 模式,Hadoop 依赖配置、YARN 资源申请与任务提交流程。