AI-调查研究-49-大数据调研报告发展历程：从概念诞生到多元化生态1997-2025

2025/8/12

人工智能 ai 大数据发展历程 Hadoop Spark 程序人生

一、国际大数据发展历程

起步1997年

年份	里程碑
1997	NASA首次提出”大数据”术语
2001	Gartner提出”3V”模型（Volume、Variety、Velocity）
2003	谷歌发表GFS论文（分布式文件系统）
2004	谷歌发表MapReduce论文
2006	谷歌发表Bigtable论文
2005	Hadoop框架诞生（Doug Cutting）

转折2008年

Hadoop正式成为Apache顶级项目
Facebook数据处理量达15PB/月
生态系统形成：
- 存储：HBase、Cassandra
- 处理：Hive、Pig、Spark
- 采集：Flume、Sqoop
- 调度：ZooKeeper、Ozzie
- 机器学习：Mahout

主流2011年后

年份	里程碑
2011	Apache Kafka开源
2012	Apache Spark推出（内存计算提升100倍）
2014	Spark成为Apache顶级项目

多样化2015年

计算框架多元化：
- 批处理：Hadoop MapReduce、Spark
- 交互式分析：Presto、Impala
- 实时流计算：Spark Streaming、Flink、Storm
市场规模：2013年103亿美元→2019年1931亿美元

二、国内大数据产业发展

中国企业开源贡献

Apache Kylin：eBay中国团队主导，2015年首个中国团队主导的Apache顶级项目
Apache Flink：阿里巴巴2016年起深度参与，贡献超50%代码

本土化平台

阿里MaxCompute：日处理EB级数据，双十一处理超100PB
华为FusionInsight：支持PB级数据管理，上千节点集群

未来展望

“东数西算”工程推进
数据要素市场培育
从”跟跑”到”并跑”

技术演进总结

阶段	时间	核心技术
概念形成	1997-2005	3V模型、GFS、MapReduce
开源生态	2005-2012	Hadoop生态系统
内存计算	2012-2014	Spark
多元化	2015至今	批流一体、云原生、实时数仓