一、国际大数据发展历程
起步1997年
| 年份 | 里程碑 |
|---|---|
| 1997 | NASA首次提出”大数据”术语 |
| 2001 | Gartner提出”3V”模型(Volume、Variety、Velocity) |
| 2003 | 谷歌发表GFS论文(分布式文件系统) |
| 2004 | 谷歌发表MapReduce论文 |
| 2006 | 谷歌发表Bigtable论文 |
| 2005 | Hadoop框架诞生(Doug Cutting) |
转折2008年
- Hadoop正式成为Apache顶级项目
- Facebook数据处理量达15PB/月
- 生态系统形成:
- 存储:HBase、Cassandra
- 处理:Hive、Pig、Spark
- 采集:Flume、Sqoop
- 调度:ZooKeeper、Ozzie
- 机器学习:Mahout
主流2011年后
| 年份 | 里程碑 |
|---|---|
| 2011 | Apache Kafka开源 |
| 2012 | Apache Spark推出(内存计算提升100倍) |
| 2014 | Spark成为Apache顶级项目 |
多样化2015年
-
计算框架多元化:
- 批处理:Hadoop MapReduce、Spark
- 交互式分析:Presto、Impala
- 实时流计算:Spark Streaming、Flink、Storm
-
市场规模:2013年103亿美元→2019年1931亿美元
二、国内大数据产业发展
中国企业开源贡献
- Apache Kylin:eBay中国团队主导,2015年首个中国团队主导的Apache顶级项目
- Apache Flink:阿里巴巴2016年起深度参与,贡献超50%代码
本土化平台
- 阿里MaxCompute:日处理EB级数据,双十一处理超100PB
- 华为FusionInsight:支持PB级数据管理,上千节点集群
未来展望
- “东数西算”工程推进
- 数据要素市场培育
- 从”跟跑”到”并跑”
技术演进总结
| 阶段 | 时间 | 核心技术 |
|---|---|---|
| 概念形成 | 1997-2005 | 3V模型、GFS、MapReduce |
| 开源生态 | 2005-2012 | Hadoop生态系统 |
| 内存计算 | 2012-2014 | Spark |
| 多元化 | 2015至今 | 批流一体、云原生、实时数仓 |