Spark SQL快速入门系列之Hive

Stella981
• 阅读 677

点击上方蓝色字体,选择“设为星标

回复”资源“获取更多资源

Spark SQL快速入门系列之Hive

Spark SQL快速入门系列之Hive

大数据技术与架构

点击右侧关注,大数据开发领域最强公众号!

Spark SQL快速入门系列之Hive

Spark SQL快速入门系列之Hive

暴走大数据

点击右侧关注,暴走大数据!

Spark SQL快速入门系列之Hive

目录

  • 一.hive和spark sql的集成方式(面试可能会问到)

  • 二.spark_shell和spark_sql操作

  • spark_shell

  • spark_sql

  • 使用hiveserver2 + beeline

  • 三.脚本使用spark-sql

  • 四.idea中读写Hive数据

  • 1.从hive中读数据

  • 2.从hive中写数据

  • 使用hive的insert语句去写

  • 使用df.write.saveAsTable("表名")(常用)

  • 使用df.write.insertInto("表名")

  • 3.saveAsTable和insertInto的原理

  • 五.聚合后的分区数

一.hive和spark sql的集成方式(面试可能会问到)

Spark SQL快速入门系列之Hive
hive on spark(版本兼容)
官网https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started
Spark SQL快速入门系列之Hive
spark on hive(版本兼容)
官网
http://spark.apache.org/docs/2.1.1/sql-programming-guide.html#hive-tables
Spark SQL快速入门系列之Hive

二.spark_shell和spark_sql操作

spark_shell

Spark SQL快速入门系列之Hive
如果你在集群上使用了tez,你需要在spark/conf下spark-defaults.conf添加lzo的路径

spark.jars=/export/servers/hadoop-2.7.7/share/hadoop/common/hadoop-lzo-0.4.20.jar

spark-yarn模式启动

bin/spark-shell --master yarn

spark_sql

完全跟sql一样
Spark SQL快速入门系列之Hive
Spark SQL快速入门系列之Hive
Spark SQL快速入门系列之Hive

使用hiveserver2 + beeline

spark-sql 得到的结果不够友好, 所以可以使用hiveserver2 + beeline
1.启动thriftserver(后台)

sbin/start-thriftserver.sh

2.启动beeline

bin/beeline

Spark SQL快速入门系列之Hive

三.脚本使用spark-sql

Spark SQL快速入门系列之Hive

四.idea中读写Hive数据

1.从hive中读数据

Spark SQL快速入门系列之Hive
添加依赖

<dependency>

代码实现

import org.apache.spark.sql.SparkSession

结果
Spark SQL快速入门系列之Hive

2.从hive中写数据

Spark SQL快速入门系列之Hive

使用hive的insert语句去写

import org.apache.spark.sql.SparkSession

使用df.write.saveAsTable(“表名”)(常用)

import org.apache.spark.sql.SparkSession

使用df.write.insertInto(“表名”)

import org.apache.spark.sql.SparkSession

3.saveAsTable和insertInto的原理

saveAsTable
使用列名进行分配值
Spark SQL快速入门系列之Hive

insertInto
按照位置进行1对1
Spark SQL快速入门系列之Hive

五.聚合后的分区数

import org.apache.spark.sql.SparkSession

结果:聚合函数分区数默认200个

Spark SQL快速入门系列之Hive

如果数据量小,没必要200两个分区,简直浪费。

df2.write.saveAsTable("a4")

修改为

df2.coalesce(1).write.saveAsTable("a4")

Spark SQL快速入门系列之Hive

Spark SQL快速入门系列之Hive

版权声明:

本文为大数据技术与架构整理,原作者独家授权。未经原作者允许转载追究侵权责任。

编辑|谭林平丶

微信公众号|import_bigdata

欢迎点赞+收藏+转发朋友圈素质三连

Spark SQL快速入门系列之Hive

文章不错?点个【在看】吧!** 👇**

本文分享自微信公众号 - 大数据技术与架构(import_bigdata)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
待兔 待兔
4个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Android So动态加载 优雅实现与原理分析
背景:漫品Android客户端集成适配转换功能(基于目标识别(So库35M)和人脸识别库(5M)),导致apk体积50M左右,为优化客户端体验,决定实现So文件动态加载.!(https://oscimg.oschina.net/oscnet/00d1ff90e4b34869664fef59e3ec3fdd20b.png)点击上方“蓝字”关注我
Stella981 Stella981
3年前
Docker 部署SpringBoot项目不香吗?
  公众号改版后文章乱序推荐,希望你可以点击上方“Java进阶架构师”,点击右上角,将我们设为★“星标”!这样才不会错过每日进阶架构文章呀。  !(http://dingyue.ws.126.net/2020/0920/b00fbfc7j00qgy5xy002kd200qo00hsg00it00cj.jpg)  2
Stella981 Stella981
3年前
ClickHouse大数据领域企业级应用实践和探索总结
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/bb00e5f54a164cb9827f1dbccdf87443.jpg)!(https://oscimg.oschina.net/oscnet/dc8da835ff1b4
Stella981 Stella981
3年前
Hive常用参数调优十二板斧
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/7ff84748c0f944e09dfe9714e2f139fe.jpg)!(https://oscimg.oschina.net/oscnet/70efaa70534b43e1
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Wesley13 Wesley13
3年前
2021年要做的大事,25个大数据必知领域全面开启更新
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/42781f98ab4944368ad1c15a8d27aff1.jpg)!(https://oscimg.oschina.net/oscnet/80fc2bcb43ac4fa0
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这