Hadoop是一個由Apache基金會所開發能夠讓用戶輕松架構和使用的大規模數據處理平臺,是處理、存儲和分析海量的分布式、非結構化數據的開源框架。Hadoop的分布式架構,將大數據處理引擎盡可能的靠近存儲,并且它的MapReduce功能實現了將單個任務打碎,并將碎片任務(Map)發送到多個節點上,之后再以單個數據集的形式加載(Reduce)到數據倉庫里。Hadoop 是一種分析和處理大數據的軟件平臺,是一個用 Java 語言實現的 Apache 的開源軟件框架,在大量計算機組成的集群中實現了對海量數據的分布式計算。Hadoop具備可靠、高效、可伸縮等特點,用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。有需要使用Hadoop的朋友快通過kkx分享的地址來獲取吧!
Hadoop優點
1. 高可靠性。
Hadoop按位存儲和處理數據的能力值得人們信賴。
2. 高擴展性。
Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
3. 高效性。
Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非常快。
4. 高容錯性。
Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
5. 低成本。
與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。
Hadoop安裝教程
Hadoop2.7.1的部署
機器環境:
操作系統:CentOS 6.4 64位系統
Hadoop版本:hadoop-2.7.1,在CentOS下自行編譯后的64位版本。
Hadoop安裝步驟
1、首先下載安裝包tar zxvf hadoop-2.7.1.tar.gz
2.在虛擬機中解壓安裝包

3.安裝目錄下創建數據存放的文件夾,tmp、hdfs、hdfs/data、hdfs/name

4、修改/home/yy/hadoop-2.7.1/etc/hadoop下的配置文件
修改core-site.xml,加上
fs.defaultFS
hdfs://s204:9000
hadoop.tmp.dir
file:/home/yy/hadoop-2.7.1/tmp
io.file.buffer.size
131702


5.修改hdfs-site.xml,加上
dfs.namenode.name.dir
file:/home/yy/hadoop-2.7.1/dfs/name
dfs.datanode.data.dir
file:/home/yy/hadoop-2.7.1/dfs/data
dfs.replication
2
dfs.namenode.secondary.http-address
s204:9001
dfs.webhdfs.enabled
true

6.修改mapred-site.xml,加上
mapreduce.framework.name
yarn
mapreduce.jobhistory.address
s204:10020
mapreduce.jobhistory.webapp.address
s204:19888

7.修改yarn-site.xml,加上
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.auxservices.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.resourcemanager.address
s204:8032
yarn.resourcemanager.scheduler.address
s204:8030
yarn.resourcemanager.resource-tracker.address
s204:8031
yarn.resourcemanager.admin.address
s204:8033
yarn.resourcemanager.webapp.address
s204:8088
yarn.nodemanager.resource.memory-mb
768

8、配置/home/yy/hadoop-2.7.1/etc/hadoop目錄下hadoop-env.sh、yarn-env.sh的JAVA_HOME,否則啟動時會報error
export JAVA_HOME=/home/yy/jdk1.8


9.配置/home/yy/hadoop-2.7.1/etc/hadoop目錄下slaves
加上你的從服務器,我這里只有一個s205
配置成功后,將hadhoop復制到各個從服務器上
scp -r /home/yy/hadoop-2.7.1 root@s205:/home/yy/

10.主服務器上執行bin/hdfs namenode -format
進行初始化
sbin目錄下執行 ./start-all.sh
可以使用jps查看信息
停止的話,輸入命令,sbin/stop-all.sh

11.這時可以瀏覽器打開s204:8088查看集群信息啦
到此配置完成,如圖:

優勢
Hadoop是一個基本框架,容許用簡單的編程實體模型在計算機中集群中對大中型數據開展分布式解決。它設計規模從單一網絡服務器到數千臺設備,每一個網絡服務器都可以提供當地運算存放作用,框架自身提供是指電子計算機集群高可用性服務,不依賴硬件配置來提供可擴展性。
用戶可在不太了解分布式最底層關鍵點的情形下,快速地在Hadoop上開發與運作解決大數據的應用軟件。降低成本、高可靠、高拓展、高合理、高容錯機制等特點讓hadoop變成最流行大數據分析平臺。
Hadoop的生態系統,主要是由HDFS、MapReduce,HBase,Zookeeper,Pig、Hive等關鍵部件組成,同時還包含Sqoop、Flume等框架,用于與其他公司系統融合。與此同時,Hadoop生態系統還在不斷增加,它增加了Mdhout、Ambari等相關信息,以提供升級作用。