阅读指南 AI 调研与资料整理
面向技术趋势、行业资料和模型能力的调研型内容,适合快速建立背景认知。
适合读者
- 需要快速了解 AI 技术或行业方向的读者
- 想把资料整理转成工程判断的开发者
前置知识
- 了解基本 AI / 后端概念会更顺畅
- 重点关注结论、边界和可落地方向
你将收获
- 获得主题背景、关键术语和趋势判断
- 识别后续需要深入验证的工程问题
这是一篇调研或历史归档型文章,适合作为背景资料阅读;如果要用于实际落地,建议结合最新官方文档和当前工程环境再验证。
一、批处理到内存计算
批处理时代(2006-2012)
- MapReduce框架占据主导
- 典型场景:夜间ETL、日志分析、数据清洗
- 性能瓶颈:中间结果需落盘、任务调度开销大
Spark革命(2013)
- 创新点:RDD内存计算、DAG执行计划、多语言支持
- 性能提升:
- 迭代算法:快100倍
- 交互式查询:快10-100倍
- 批处理作业:快10-30倍
生态演进
- Cloudera Impala(2013):首个开源MPP SQL引擎
- Facebook Presto(2013):支持多种数据源
- Apache Drill(2015):支持半结构化数据
二、离线到实时计算
离线计算时代
- T+1模式:当日处理前一天数据
- 适用:每日报表、历史分析、ML模型训练
实时流计算兴起
- Apache Storm:亚秒级延迟,但只支持”至多一次”语义
- Lambda架构:批处理层+速度层+服务层(需维护两套代码)
新一代流处理
典型应用场景
三、从单体到云原生架构
传统单体架构局限
架构演进
- YARN:资源池化、多框架支持、动态分配
- 云原生:Kubernetes编排、存算分离、Serverless
主流云服务
技术演进总结
三大时代
当前趋势
- 架构融合:批流一体、Lambda向Kappa演进
- 云原生:Serverless化、存算分离
- 智能增强:MLOps、实时特征计算