一、国际大数据发展历程

起步1997年

年份里程碑
1997NASA首次提出”大数据”术语
2001Gartner提出”3V”模型(Volume、Variety、Velocity)
2003谷歌发表GFS论文(分布式文件系统)
2004谷歌发表MapReduce论文
2006谷歌发表Bigtable论文
2005Hadoop框架诞生(Doug Cutting)

转折2008年

  • Hadoop正式成为Apache顶级项目
  • Facebook数据处理量达15PB/月
  • 生态系统形成
    • 存储:HBase、Cassandra
    • 处理:Hive、Pig、Spark
    • 采集:Flume、Sqoop
    • 调度:ZooKeeper、Ozzie
    • 机器学习:Mahout

主流2011年后

年份里程碑
2011Apache Kafka开源
2012Apache Spark推出(内存计算提升100倍)
2014Spark成为Apache顶级项目

多样化2015年

  • 计算框架多元化

    • 批处理:Hadoop MapReduce、Spark
    • 交互式分析:Presto、Impala
    • 实时流计算:Spark Streaming、Flink、Storm
  • 市场规模:2013年103亿美元→2019年1931亿美元

二、国内大数据产业发展

中国企业开源贡献

  • Apache Kylin:eBay中国团队主导,2015年首个中国团队主导的Apache顶级项目
  • Apache Flink:阿里巴巴2016年起深度参与,贡献超50%代码

本土化平台

  • 阿里MaxCompute:日处理EB级数据,双十一处理超100PB
  • 华为FusionInsight:支持PB级数据管理,上千节点集群

未来展望

  • “东数西算”工程推进
  • 数据要素市场培育
  • 从”跟跑”到”并跑”

技术演进总结

阶段时间核心技术
概念形成1997-20053V模型、GFS、MapReduce
开源生态2005-2012Hadoop生态系统
内存计算2012-2014Spark
多元化2015至今批流一体、云原生、实时数仓