Sqoop 使用shell命令的各种参数的配置及使用方法

Easter79
• 阅读 894

点击上方蓝色字体,选择“设为星标

回复”资源“获取更多资源

Sqoop 使用shell命令的各种参数的配置及使用方法

本文作者:Sheep Sun

本文链接:https://www.cnblogs.com/yangxusun9/p/12558683.html

Sqoop 使用shell命令的各种参数的配置及使用方法

大数据技术与架构

点击右侧关注,大数据开发领域最强公众号!

Sqoop 使用shell命令的各种参数的配置及使用方法

Sqoop 使用shell命令的各种参数的配置及使用方法

暴走大数据

点击右侧关注,暴走大数据!

Sqoop 使用shell命令的各种参数的配置及使用方法

一、Sqoop简介

Sqoop将用户编写的Sqoop命令翻译为MR程序,MR程序读取关系型数据库中的数据,写入到HDFS或读取HDFS上的数据,写入到关系型数据库!

在MR程序中如果要读取关系型数据库中的数据,必须指定输入格式为DBInputformat!

在MR程序中如果要向关系型数据库写入数据,必须指定输出格式为DBOutputformat!

Sqoop命令运行的MR程序, 只有Map阶段,没有Reduce阶段!只需要做数据传输, 不需要对数据进行合并和排序!

二、sqoop导入数据(将关系型数据库的数据导入到 HDFS)

数据如下

Sqoop 使用shell命令的各种参数的配置及使用方法

2.1 直接导入HDFS

2.1.1 全表导入(部分导入)

`bin/sqoop import \`
  


`##连接的关系型数据库的url,用户名,密码`
  


`--connect jdbc:mysql://hadoop102:3306/test \`
  


`--username root \`
  


`--password 123 \`
  


`##连接的表`
  


`--table t_emp \`
  


`##导出数据在hdfs上存放路径`
  


`--target-dir /sqoopTest \`
  


`##如果路径已存在则先删除`
  


`--delete-target-dir \`
  


`##导入到Hdfs上后,每个字段使用什么参数进行分割`
  


`--fields-terminated-by "\t" \`
  


`##要启动几个MapTask,默认4个`
  


`--num-mappers 2 \`
  


`##数据集根据哪个字段进行切分,切分后每个MapTask负责一部分`
  


`--split-by id \`
  


`##要实现部分导入,加入下面的参数,表示导入哪些列`
  


`##columns中如果涉及到多列,用逗号分隔,分隔时不要添加空格`
  


`--columns id,name,age`
 

2.1.2 使用sqoop****关键字筛选查询导入数据

`bin/sqoop import \`
  


`--connect jdbc:mysql://hadoop102:3306/test \`
  


`--username root \`
  


`--password 123 \`
  


`--table t_emp \`
  


`##指定过滤的where语句,where语句最好使用引号包裹`
  


`--where 'id>6' \`
  


`--target-dir /sqoopTest \`
  


`--delete-target-dir \`
  


`--fields-terminated-by "\t" \`
  


`--num-mappers 1 \`
  


`--split-by id` 
  



 

2.1.3 使用查询语句导入

`bin/sqoop import \`
  


`--connect jdbc:mysql://hadoop102:3306/test \`
  


`--username root \`
  


`--password 123 \`
  


`##查询语句最好使用单引号`
  


`##如果query后使用的是双引号,则$CONDITIONS前必须加转移符,防止shell识别为自己的变量`
  


`--query 'select * from t_emp where id>3 and $CONDITIONS' \`
  


`--target-dir /sqoopTest \`
  


`--delete-target-dir \`
  


`--fields-terminated-by "\t" \`
  


`--num-mappers 1 \`
  


`--split-by id` 
 

注意:

1、如果使用了--query,就不能指定--table,和--columns和--where

  --query 和 --table一定不能同时存在!

  --where和--query同时存在时,--where失效

  --columns和--query同时存在时,还有效!

2、--query 必须跟--target-dir

2.2 导入到Hive

`bin/sqoop import \`
  


`--connect jdbc:mysql://hadoop102:3306/test \`
  


`--username root \`
  


`--password 123 \`
  


`--query 'select * from t_emp where id>3 and $CONDITIONS' \`
  


`--target-dir /sqoopTest \`
  


`##如果不限定分隔符,那么hive存储的数据将不带分隔符,之后再想操作很麻烦,所以建议加上`
  


`--fields-terminated-by "\t" \`
  


`--delete-target-dir \`
  


`##导入到hive`
  


`--hive-import \`
  


`##是否覆盖写,不加这个参数就是追加写`
  


`--hive-overwrite \`
  


`##指定要导入的hive的表名`
  


`--hive-table t_emp \`
  


`--num-mappers 1 \`
  


`--split-by id`
 

原理还是分俩步:先把数据从关系数据库里导到hdfs中,然后再从hdfs中导到hive中,此时hdfs中的文件会被删除

注意:如果hive中没表会自动创建表,但是类型是自动生成的,所以还是 建议手动创建

也可以分俩步走:

先导入hdfs

`#!/bin/bash`
  


`import_data(){`
  


`$sqoop import \`
  


`--connect jdbc:mysql://hadoop102:3306/gmall \`
  


`--username root \`
  


`--password 123 \`
  


`--target-dir /origin_data/gmall/db/$1/$do_date \`
  


`--delete-target-dir \`
  


`--query "$2 and  \$CONDITIONS" \`
  


`--num-mappers 1 \`
  


`--fields-terminated-by '\t' \`
  


`# 使用压缩,和指定压缩格式为lzop`
  


`--compress \`
  


`--compression-codec lzop \`
  


`#将String类型和非String类型的空值替换为\N,方便Hive读取`
  


`--null-string '\\N' \`
  


`--null-non-string '\\N'`
  


`}`
 

然后利用  load data  命令导入hive

注意:这里使用到了空值处理 —— **Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用--input-null-string和--input-null-non-string两个参数。导入数据时采用--null-string和--null-non-string。
**

2.3 导入到 Hbase

`bin/sqoop import \`
  


`--connect jdbc:mysql://hadoop102:3306/test \`
  


`--username root \`
  


`--password 123 \`
  


`--query 'select * from t_emp where id>3 and $CONDITIONS' \`
  


`--target-dir /sqoopTest \`
  


`--delete-target-dir \`
  


`##表不存在是否创建`
  


`--hbase-create-table \`
  


`##hbase中的表名`
  


`--hbase-table "t_emp" \`
  


`##将导入数据的哪一列作为rowkey`
  


`--hbase-row-key "id" \`
  


`##导入的列族`
  


`--column-family "info" \`
  


`--num-mappers 2 \`
  


`--split-by id`
 

1、当选用自动创建表时,如果版本不兼容会报错:

20/03/24 13:51:24 INFO mapreduce.HBaseImportJob: Creating missing HBase table t_emp
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.hbase.HTableDescriptor.addFamily(Lorg/apache/hadoop/hbase/HColumnDescriptor;)V

Sqoop 使用shell命令的各种参数的配置及使用方法

 此时只能自己手动创建或者可以重新编译sqoop源码

2、如果要多列族导入,只能多次运行命令,一次导入一个列族

三、导出

将Hdfs上的数据导出到关系型数据库中

3.1 SQL中表为空表时

`bin/sqoop export \`
  


`--connect 'jdbc:mysql://hadoop102:3306/test?useUnicode=true&characterEncoding=utf-8' \`
  


`--username root \`
  


`--password 123 \`
  


`##导出的表名,需要自己提前创建好`
  


`--table t_emp2 \`
  


`--num-mappers 1 \`
  


`##hdfs上导出的数据的路径`
  


`--export-dir /user/hive/warehouse/t_emp \`
  


`##hdfs上数据的分隔符`
  


`--input-fields-terminated-by "\t"`
 

3.2 表不为空表时

如果插入的数据的主键和表中已有数据的主键冲突,那么会报错

Duplicate entry '5' for key 'PRIMARY'

如果在SQL下,可以使用

`INSERT INTO t_emp2 VALUE(5,'jack',30,3,1111)` 
  


`ON DUPLICATE KEY UPDATE NAME=VALUES(NAME),deptid=VALUES(deptid),`
  


`empno=VALUES(empno);`
 

意为

指定当插入时,主键重复时时,对于重复的记录,只做更新,不做插入!

而用sqoop时,则可以启用以下俩种模式

3.2.1updateonly模式

`bin/sqoop export \`
  


`--connect 'jdbc:mysql://hadoop103:3306/mydb?useUnicode=true&characterEncoding=utf-8' \`
  


`--username root \`
  


`--password 123456 \`
  


`--table t_emp2 \`
  


`--num-mappers 1 \`
  


`--export-dir /hive/t_emp \`
  


`--input-fields-terminated-by "\t" \`
  


`--update-key id`
 

利用 --update-key 字段  ,表示主键重复时会进行更新,但是 主键不重复的时候,数据不会插入进来

3.2.2allowinsert模式

`bin/sqoop export \`
  


`--connect 'jdbc:mysql://hadoop103:3306/mydb?useUnicode=true&characterEncoding=utf-8' \`
  


`--username root \`
  


`--password 123456 \`
  


`--table t_emp2 \`
  


`--num-mappers 1 \`
  


`--export-dir /hive/t_emp \`
  


`--input-fields-terminated-by "\t" \`
  


`--update-key id \`
  


`--update-mode  allowinsert`
 

表示主键重复时会进行更新,主键不重复的时候,数据也会插入进来

3.3 如何查看导出命令的具体实现

3.3.1配置/etc/my.cnf

`bin/sqoop export \`
  


`--connect 'jdbc:mysql://hadoop103:3306/mydb?useUnicode=true&characterEncoding=utf-8' \`
  


`--username root \`
  


`--password 123456 \`
  


`--table t_emp2 \`
  


`--num-mappers 1 \`
  


`--export-dir /hive/t_emp \`
  


`--input-fields-terminated-by "\t" \`
  


`--update-key id \`
  


`--update-mode  allowinsert`
 

3.3.2重启mysql服务

3.3.3进入/var/lib/mysql,调用方法

`sudo mysqlbinlog mysql-bin.000001`
 

欢迎点赞+收藏+转发朋友圈素质三连

Sqoop 使用shell命令的各种参数的配置及使用方法

文章不错?点个【在看】吧!** 👇**

本文分享自微信公众号 - 大数据技术与架构(import_bigdata)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Stella981 Stella981
3年前
Docker 部署SpringBoot项目不香吗?
  公众号改版后文章乱序推荐,希望你可以点击上方“Java进阶架构师”,点击右上角,将我们设为★“星标”!这样才不会错过每日进阶架构文章呀。  !(http://dingyue.ws.126.net/2020/0920/b00fbfc7j00qgy5xy002kd200qo00hsg00it00cj.jpg)  2
Stella981 Stella981
3年前
ClickHouse大数据领域企业级应用实践和探索总结
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/bb00e5f54a164cb9827f1dbccdf87443.jpg)!(https://oscimg.oschina.net/oscnet/dc8da835ff1b4
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
Easter79
Easter79
Lv1
今生可爱与温柔,每一样都不能少。
文章
2.8k
粉丝
5
获赞
1.2k