阅读指南 AI 调研与资料整理
面向技术趋势、行业资料和模型能力的调研型内容,适合快速建立背景认知。
适合读者
- 需要快速了解 AI 技术或行业方向的读者
- 想把资料整理转成工程判断的开发者
前置知识
- 了解基本 AI / 后端概念会更顺畅
- 重点关注结论、边界和可落地方向
你将收获
- 获得主题背景、关键术语和趋势判断
- 识别后续需要深入验证的工程问题
这是一篇调研或历史归档型文章,适合作为背景资料阅读;如果要用于实际落地,建议结合最新官方文档和当前工程环境再验证。
一、MapReduce → Spark/Tez
被淘汰原因
- 中间结果需持久化到HDFS磁盘,I/O开销大
- 任务调度粗粒度,启动时间数秒
- 无法支持低延迟的交互式查询
替代方案:Spark
- 内存计算
- DAG调度
- 惰性求值
- 基于Lineage的容错
性能提升
- 100TB日志分析任务:Spark比MapReduce快100倍
- PageRank等迭代算法:加速1000倍
二、Apache Storm → Apache Flink
被淘汰原因
- 只支持”至少一次”消息处理语义
- 缺乏事件时间窗口
- 无法保证数据不重复
替代方案:Flink
- 事件时间窗口处理
- Exactly-once语义(Chandy-Lamport算法)
- 流批一体架构
三、Apache Pig and Hive
Pig局限性
Hive局限性
- 查询延迟分钟级(5-10分钟)
- MapReduce磁盘I/O开销大
- 不适合交互式分析
现状
- Pig:基本退出生产环境
- Hive:转型为元数据管理中心
四、传统数仓 → Lakehouse架构
传统数仓问题
数据湖问题
Lakehouse方案
- Delta Lake / Apache Iceberg
- 统一元数据管理
- 查询引擎:Photon、Spark SQL
技术演进趋势
当前行业状态
- 90%+新建大数据平台选择Spark
- Flink成为实时计算主流
- Hive转型为元数据管理层