raid : 

------------

1024b = 1k

1024k = 1m

1024m = 1g

1024g = 1t

1024t = 1p

1024p = 1e

1024e = 1z

1024z = 1y

hadoop

--------------

可靠地、可伸缩的、分布式计算的开源软件。

是一个框架,允许跨越计算机集群的大数据集分布式化处理,使用简单的编程模型(MapReduce)。

可从单个服务器扩展到几千台主机,每个节点提供了计算和存储功能。

不依赖于硬件处理HA,在应用层面上实现。

hadoop模块

-----------

1.hadoop common//公共类库,支持其他模块

2.HDFS//hadoop distributed file sytsem,hadoop分布式文件系统

3.Hadoop YARN//Yeah another resource ,作业调度和资源管理的框架。

4.Hadoop MapReduce//基于yarn系统的大数据集并行处理技术。

hadoop安装

---------------

1.jdk

JAVA_HOME

PATH  

2.tar hadoop.tar.gz

3.配置环境变量

HADOOP_HOME

PATH

4.配置hadoop

1.standalone | local

a.没有守护进程,所有程序运行在同一JVM中,利于test和debug.

b.nothing!

            1.下载2.7.2

                    2.tar开hadoop文件

            3.移动/soft/hadoop

                 4.创建连接

            ..

                         5.配置环境变量

            [/etc/environment]

            ...

            HADOOP_HOME=/soft/hadoop

            PATH=...:/soft/hadoop/bin:/soft/hadoop/sbin

                6.测试安装是否成功

            $>hadoop version

    

2.Pseudo distributed Mode//伪分布模式

[配置文件${hadoop_home}/etc/hadoop/*-site.xml][core-site.xml]
fs.defaultFS
hdfs://localhost/
[hdfs-site.xml]dfs.replication=1[mapred-site.xml]mapreduce.framework.name=yarn[yarn-site.xml]yarn.resourcemanager.hostname=localhostyarn.nodemanager.aux-services=mapreduce_shuffle

3.[配置SSH]

1.安装ssh软件

$>sudo apt-get install ssh//安装服务端(sshd)和客户端(ssh)以及相关软件(ssh-keygen).

2.生成密钥对

$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

3.追加公钥到对方的认证库中。

$>cat id_rsa.pub >> ~/.ssh/authorized_keys

4.测试ssh到localhost 

$>ssh localhost

4.格式化hdfs文件系统

#>hdfs namenode -format// hadoop/bin/hdfs

5.启动hdfs和yarn守护进程

$>start-dfs.sh

$>start-yarn.sh

$>stop-yarn.sh// hadoop/sbin/ 停止进程 

$>sto-yarn.sh

6.配置目录的指定方式

a.默认方式

${hadoop_home}/etc/hadoop/*.xml

b.通过启动参数指定配置目录

$.start-dfs.sh --config /soft/hadoop/etc/hadoop command//  hadoop/sbin

c.通过设置环境变量HADOOP_CONF_DIR

$>export HADOOP_CONF_DIR=/soft/hadoop/etc/hadoop_pseudo

7.目录操作

$>hadoop fs -mkdir -p /user/ubuntu//创建目录 -p 多级目录

$>hadoop fs -ls ///显示根目录 

$>hadoop fs -ls /user/ubuntu/a//显示指定的目录

$>hadoop fs -ls -R///递归显示目录结构 

$>hadoop fs -lsr///同上

$>hadoop fs -put local.txt /user/ubuntu/xx.txt//将本地文件put到hdfs文件系统。

8.查看帮助

$>hadoop fs//直接回车

$>hadoop fs -help put//查看put的具体信息

9.查看namenode和datanode在本地

$>cd /tmp/ubuntu-hadoop/dfs/name/...

$>cd /tmp/ubuntu-hadoop/dfs/data/...

10.查看log文件

$>${hadoop_home}/log

11.通过webui查看日志或者集群情况

http://localhost:50070///namenode web server port

http://localhost:8088///resourceManager,只有在本机访问才可以。hadoop集群信息

http://localhost:19888///historyServer

12.通过netstat查看网络端口占用情况

$>netstat -lupt//l:listener u:udp t:tcp p:program name

搭建完全分布式hadoop集群

-------------------------

1.安装java

2.创建user

3.安装hadoop

4.配置SSH

5.格式化

6.启动进程

start-dfs.sh | start-yarn.sh

7.创建目录

8.配置hadoop

a.克隆虚拟机4台

b.查看JRE HADOOP环境

c.配置hadoop配置文件

[core-site.xml]
fs.defaultFS
hdfs://namenode/
[hdfs-site.xml]dfs.replication=3[mapred-site.xml]mapreduce.framework.name=yarn[yarn-site.xml]yarn.resourcemanager.hostname=namenodeyarn.nodemanager.aux-services=mapreduce_shuffle[slaves]s200s300s400

[/etc/hosts]

d.远程复制/etc/hosts/到远程主机

$>scp hosts root@s200:/etc/