⼤大数据处理理
原理理和MaxCompute实践
主题
• ⼤大数据处理理和分布式技术
• ⻜飞天和ODPS
• ODPS上⼿手操作(demo)
⼤大数据处理理
⾄至80年年代中期
File Centric
⾄至10年年代末期
DB Centric
⾄至今
Bigdata Centric
KB - MB
MB - GB
100GB - PB
⼤大数据⽤用例例
• ⽇日志分析
• 商业智能和数据挖掘
• 图计算
• 检索
• 机器器学习和⼈人⼯工智能
• …
挑战
• 硬件故障
• ⽹网络带宽和延迟
• (存储、计算)成本
• 效率/时效性
重新审视
• 数据库设计
• ACID
• 结构化 / 关系型
• 并⾏行行计算
• CEP
• MPI
MapReduce
Hadoop
• ⻜飞速发展 (1.0): MapReduce, HDFS, HBase, Hive/Pig/
Cascades
• ⼴广泛接受 (2.0): HDFS federation, YARN, Tez
• Hadoop⽣生态圈: Spark, Flink, Presto/Drill, Cassandra,
…