本人也是Hadoop的学习新手,在这里分享一下自己的学习笔记,争取一周更新一篇关于Hadoop的学习记录,有兴趣的大家可以一起学习。
操作环境:
VMWare12,ubantu,hadoop-3.0.0
Hadoop简介
hadoop是Apache开源的一个分布式计算框架,可以在大量廉价的硬件设备的集群上运行应用程序,并为应用程序提供一组可靠的接口,目的就是构建一个高可靠性和扩展性的分布式系统。其核心是:HDFS,Mapreduce,Hbase。
Hadoop的运行模式
1、单机模式。是Hadoop的默认模式,在该模式下无需任何守护进程,所有的程序都是在单个jvm上运行,主要用于开发和调试mapreduce的应用逻辑。
2、伪分布模式。在该模式下Hadoop守护进程运行在一台机器上,模拟一个小规模的集群。在单机模式的基础上增加了代码调试的功能。
3、完全分布式模式。单机模式和伪分布模式都是用于开发和调试的目的,真实Hadoop的集群的运行采用的是完全分布式模式。
1)、Ubantu下创建专门的用户组和用户
sudo addgroup hadoop
sudo adduser --ingroup hadoop hadoop
2)然后给用户hadoop系统权限
执行sudo gedit /etc/sudoers,然后添加截图的种红线圈起来的地方。
3)下载Hadoop并安装
a.首先切换用户为hadoop(su hadoop),
b.然后下载hadoop:
sudo wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.0.0/hadoop-3.0.0.tar.gz
c.下载完成后解压
sudo tar -zxvf hadoop-3.0.0.tar.gz
d.切换到解压的目录中添加参数
cd /usr/lib/hadoop-3.0.0/etc/hadoop/
vim hadoop-env.sh
添加:export JAVA_HOME=/usr/lib/jvm/java
检验一个单词统计的实例
Hadoop 附带了丰富的例子(运行
可以看到所有例子),包括
wordcount、terasort、join、grep 等。
在此我们选择运行 grep 例子,我们将 input 文件夹中的所有文件作为输入,筛选当中符合正则表达式 dfs[a-z.] 的单词并统计出现的次数,最后输出结果到 output 文件夹中。
sudo mkdir input
sudo cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar grep input output 'dfs[a-z.] '
cat output/*
因为统计结果显示符合正则表达式是dfsadmin 出现了一次,部分截图如下:
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved