淘宝高级技术专家报告
报告题目-Hadoop与海量数据分析
报告地点:第12教学楼112
报告时间:2011年11月18号(周五), 晚上 7:00
报告人简介:
周忱,淘宝高级技术专家,淘宝技术委员会委员,主要致力于分布式系统的研究,包括分布式数据挖掘算法、分布式数据库实现及分布式Online/Offline数据系统。曾负责将Hive替换原有Oracle RAC, 成为淘宝数据平台与产品部的主流数据仓库, 完成极限存储的设计与实现,云梯NameNode优化等项目,多次代表淘宝参加Velocity China ,Hadoop in China等大会并做技术演讲。目前正在负责淘宝Hadoop集群的性能优化及淘宝Hive的研发。
报告简介:
淘宝数据平台使用的Hadoop集群是全国最大的Hadoop集群之一, 它支撑了淘宝整个数据分析工作。整个集群最多达到1700个节点, 总容量24.3PB,。每天在集群之上运行的作业约40000道, 扫描数据1.7PB, 输出结果约235TB。面向庞大的节点数量,海量的数量资源以及每天数万计的统计作业,淘宝Hadoop集群是如何解决这些难题的呢?淘宝技术专家周忱带你给答案。