编辑: 丶蓶一 2019-11-20
GZ-2019032 大数据技术与应用(高职组)赛题库 I

2019 年全国职业院校技能大赛 GZ-2019032 大数据技术与应用 (高职组)赛题库 GZ-2019032 大数据技术与应用(高职组)赛题库 II 目录 任务一:Hadoop 平台及组件的部署管理.

1 -

一、 Hadoop 全分布部署

1 -

二、 Hadoop 伪分布部署

2 -

三、 Hadoop HA 部署

3 -

四、 Hive 组件部署.5 -

五、 Sqoop 组件部署.6 -

六、 Hbase 组件部署

6 -

七、 Flume 组件部署.7 -

八、 Spark 组件部署.8 -

九、 Kafka 组件部署.9 -

十、 Storm 组件安装部署

10 - 十

一、 Zookeeper 集群部署.11 - 任务二:数据采集.12 -

一、 数据源 1(交通运输)12 -

二、 数据源 2(web,招聘)14 -

三、 数据源 3(web,酒店)16 -

四、 数据源 4(web,零售)17 - 任务三:数据清洗与分析

19 -

一、 数据源 1(交通运输)19 -

二、 数据源 2(招聘)20 - GZ-2019032 大数据技术与应用(高职组)赛题库 III

三、 数据源 3(酒店)23 -

四、 数据源 4(零售)31 - 任务

四、数据可视化.38 -

一、 数据源 1(交通运输)38 -

二、 数据源 2(招聘)39 -

三、 数据源 3(酒店)41 -

四、 数据源 4(零售)43 - 任务

五、综合分析.46 -

一、 数据源 1(交通运输)46 -

二、 数据源 2(招聘)46 -

三、 数据源 3(酒店)47 -

四、 数据源 4(零售)47 - GZ-2019032 大数据技术与应用(高职组)赛题库 -

1 - 任务一:Hadoop 平台及组件的部署管理 注意:任务安装包统一在 /h3cu/ 中. 编号 主机名 类型 用户 密码

1 master1-1 主节点 root passwd

2 slave1-1 从节点 root passwd

3 slave1-2 从节点 root passwd

一、 Hadoop 全分布部署 本环节需要使用 root 用户完成相关配置,安装 hadoop 需要配置前置环 境,具体部署要求如下:

1、 解压 JDK 安装包到 /usr/local/src 路径,并配置环境变量;

截取环境变 量配置文件截图;

2、 在指定目录下安装ssh 服务, 查看ssh进程并截图 (安装包统一在 /h3cu/ ) ;

3、 创建 ssh 密钥,实现主节点与从节点的无密码登录;

截取主节点登录其中一 个从节点的结果;

4、 根据要求修改每台主机 host 文件,截取 /etc/hosts 文件截图;

GZ-2019032 大数据技术与应用(高职组)赛题库 -

2 -

5、 修改每台主机hostname 文件配置IP 与主机名映射关系;

截取 /etc/hostname 文件截图;

6、 根据要求修改 Hadoop 环境变量,并截取修改内容;

7、 根据要求修改 Hadoop 相关文件,并初始化 Hadoop,截图初始化结果;

8、 启动 Hadoop,使用相关命令查看所有节点 Hadoop 进程并截图.

二、 Hadoop 伪分布部署 本环节需要使用 root 用户完成相关配置,安装 Hadoop 需要配置前置环 境,具体部署要求如下:

1、 解压 JDK 安装包到 /usr/local/src 路径,并配置环境变量;

截取环境变 量配置文件截图;

2、 在指定目录下安装 ssh 服务,查看 ssh 进程并截图 (安装包统一在 /h3cu/ ) ;

3、 创建 ssh 密钥,实现主节点与从节点的无密码登录;

截取主节点登录其中一 个从节点的结果;

4、 根据要求修改每台主机 host 文件,截取 /etc/hosts 文件截图;

5、 修改每台主机hostname 文件配置IP 与主机名映射关系;

截取GZ-2019032 大数据技术与应用(高职组)赛题库 -

3 - /etc/hostname 文件截图;

6、 在主节点修改 Hadoop 环境变量(/etc/profile)并截取修改内容;

7、 根据要求修改 Hadoop 相关文件(hadoop-env.sh、core-site.xml、hdfs- site.xml、mapred-site.xml、yarn-site.xml) ,初始化 Hadoop,截图初始 化结果;

8、 启动 Hadoop,使用相关命令查看所有节点 Hadoop 进程并截图.

三、 Hadoop HA 部署 本环节需要使用 root 用户完成相关配置,安装 Hadoop 需要配置前置环 境,具体部署要求如下:

1、 解压 JDK 安装包到 /usr/local/src 路径,并配置环境变量;

截取环境变 量配置文件截图;

2、 在指定目录下安装ssh 服务, 查看ssh进程并截图 (安装包统一在 /h3cu/ ) ;

3、 创建 ssh 密钥,实现主节点与从节点的无密码登录;

截取主节点登录其中一 个从节点的结果;

4、 根据要求修改每台主机 host 文件,截取 /etc/hosts 文件截图;

5、 修改每台主机hostname 文件配置IP 与主机名映射关系;

截取GZ-2019032 大数据技术与应用(高职组)赛题库 -

4 - /etc/hostname 文件截图;

6、 在主节点和从节点修改 Hadoop 环境变量,并截取修改内容;

7、 根据要求修改 Hadoop 相关文件,并初始化 Hadoop,截图初始化结果;

8、 启动 Hadoop,使用相关命令查看所有节点 Hadoop 进程并截图;

9、 需安装 Zookeeper 组件具体要求同 Zookeeper 任务要求,并与 Hadoop HA 环境适配;

10、 本题要求配置完成后在 Hadoop 平台上运行查看进程命令, 要求运行结 果的截屏保存;

11、 修改 namenode、datanode、journalnode 等存放数据的公共目录为 /usr/local/hadoop/tmp;

12、 格式化主从节点;

13、 启动两个 namenode 和resourcemanager;

14、 使用查看进程命令查看进程,并截图(要求截取主机名称),访问两个 namenode 和resourcemanager web 界面.并截图保存(要求截到 url 状态)

15、 终止 active 的namenode 进程,并使用 Jps 查看各个节点进程,(截上主 机名称),访问两个 namenode 和resourcemanager web 界面.并截图保存 GZ-2019032 大数据技术与应用(高职组)赛题库 -

5 - (要求截到 url 和状态);

16、 重启刚才终止的 namenode,并查看 jps 进程,截图访问两个 namenode 的web 界面,并截图保存.

四、 Hive 组件部署 本环节需要使用 root 用户完成相关配置,已安装 Hadoop 及需要配置前 置环境,具体部署要求如下:

1、 解压 Hive 安装包到 /usr/local/src 路径,并使用相关命令,修改解压后 文件夹名为 Hive,进入 Hive 文件夹,并将查看内容截图;

2、 设置Hive 环境变量(HIVE_HOME=/usr/local/src/hive ;

PATH=$PATH:$HIVE_HOME/bin) ,并使环境变量只对当前用户生效;

3、 新建并配置 hive-site.xml 文件, 实现 Hive 元存储 的存储位置为 MySQL 数据库;

4、 初始化 Hive 元数据 (将MySQL 数据库 JDBC 驱动拷贝到 Hive 安装目录的 lib 下) ,初始化结果截图;

5、 启动 Hive, 检查是否安装成功,截图保存结果;

6、 按指定要求创建 Hive 内部表和外部表,截图保存结果;

GZ-2019032 大数据技术与应用(高职组)赛题库 -

6 -

7、 按要求实现内外部表转换,截图保存结果;

8、 按指定要求创建分区表,截图保存结果.

五、 Sqoop 组件部署 本环节需要使用 root 用户完成相关配置,已安装 Hadoop 及需要配置前 置环境,具体部署要求如下:

1、 Sqoop 安装包到 /usr/local/src 路径,并使用相关命令,修改解压后文 件夹名为 sqoop,进入 sqoop 文件夹,并将查看内容截图;

2、 修改 Sqoop 环境变量,并使环境变量只对当前用户生效;

3、 修改并配置 sqoop-env.sh 文件,截图并保存结果;

4、 测试 Sqoop 连接 MySQL 数据库是否成功,截图并保存结果;

5、 通过 Sqoop 将Hive 中数据传输到 MySQL 数........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题