Hadoop学习笔记(概述) - HelloWorld开发者社区

(1)可使用简单的编程模型来分布式计算集群中的大量数据集。

(2)可从一台服务器扩展到数千台服务器的计算和存储

(3)在应用层面发现并处理错误

(1)Hadoop Common: 支持其他hadoop模块的通用工具

(2)Hadoop Distributed File System(HDFS): 分布式文件系统，为应用数据的访问提供了高吞吐量

(3)Hadoop YARN: 一个作业调度和集群资源管理的框架

(4)Hadoop MapReduce: 基于YARN的大型数据并发处理系统

(1)Ambari: 一个基于WEB的用于配置、管理、监控Apache Hadoop集群的工具。目前支持的集群包括，HDFS, MapReduce, Hive, HCatalog, HBase, Zookeeper, Oozie, Pig和Sqoop。

(2)Avro: 数据序列化系统

(3)Cassandra: 可扩展的多主节点数据库，没有单点故障

(4)Chukwa: 用于管理大型分布式系统的数据采集系统

(5)HBase: 可扩展的，支持大型表结构化数据存储的分布式数据库

(6)Hive: 数据仓库的基础设施，提供数据汇总和特殊查询

(7)Mahout: 可扩展的机器学习和数据挖掘库

(8)Pig: 一个高层次的数据流语言和并行计算框架

(9)Spark: 一个快速和通用的用于计算hadoop数据的计算引擎，它提供了简单而富有表现力的编程模型，支持多种应用，包括ETL, 机器学习，数据流处理和图形计算。

(10)Tez: 一个广泛的数据流编程模型，建立在Hadoop YARN之上，它提供了强大和灵活的引擎可执行任意的有向无环任务，支持批处理以及交互式的使用情况数据处理。

(11)Zookeeper: 一个分布式应用程序的高性能的协调服务

Android进阶之旅-(Framework源码分析)