Apache hadoop是什么?
可靠的,可扩展的分布式计算软件。
(1)可使用简单的编程模型来分布式计算集群中的大量数据集。
(2)可从一台服务器扩展到数千台服务器的计算和存储
(3)在应用层面发现并处理错误
Hadoop项目的几大模块
(1)Hadoop Common: 支持其他hadoop模块的通用工具
(2)Hadoop Distributed File System(HDFS): 分布式文件系统,为应用数据的访问提供了高吞吐量
(3)Hadoop YARN: 一个作业调度和集群资源管理的框架
(4)Hadoop MapReduce: 基于YARN的大型数据并发处理系统
其他Hadoop相关项目
(1)Ambari: 一个基于WEB的用于配置、管理、监控Apache Hadoop集群的工具。目前支持的集群包括,HDFS, MapReduce, Hive, HCatalog, HBase, Zookeeper, Oozie, Pig和Sqoop。
(2)Avro: 数据序列化系统
(3)Cassandra: 可扩展的多主节点数据库,没有单点故障
(4)Chukwa: 用于管理大型分布式系统的数据采集系统
(5)HBase: 可扩展的,支持大型表结构化数据存储的分布式数据库
(6)Hive: 数据仓库的基础设施,提供数据汇总和特殊查询
(7)Mahout: 可扩展的机器学习和数据挖掘库
(8)Pig: 一个高层次的数据流语言和并行计算框架
(9)Spark: 一个快速和通用的用于计算hadoop数据的计算引擎,它提供了简单而富有表现力的编程模型,支持多种应用,包括ETL, 机器学习,数据流处理和图形计算。
(10)Tez: 一个广泛的数据流编程模型,建立在Hadoop YARN之上,它提供了强大和灵活的引擎可执行任意的有向无环任务,支持批处理以及交互式的使用情况数据处理。
(11)Zookeeper: 一个分布式应用程序的高性能的协调服务