Hive小知识之分桶抽样

Stella981
• 阅读 489

点击上方蓝色字体,选择“设为星标

回复”资源“获取更多资源

Hive小知识之分桶抽样

Hive小知识之分桶抽样

大数据技术与架构

点击右侧关注,大数据开发领域最强公众号!

Hive小知识之分桶抽样

Hive小知识之分桶抽样

暴走大数据

点击右侧关注,暴走大数据!

Hive小知识之分桶抽样

先把大家都知道的分桶抽样查询 的语法以及用法po出

select * from 分桶表 tablesample(bucket x out of y on 分桶字段);

假设当前分桶表,一共分了z桶!

x: 代表从当前的第几桶开始抽样

0<x<=y

y: z/y 代表一共抽多少桶!

y必须是z的因子或倍数!

怎么抽:从第x桶开始抽,当y<=z每间隔y桶抽一桶,直到抽满 z/y桶

举例1:

select * from stu_buck2 tablesample(bucket 1 out of 2 on id);

从第1桶开始抽,每间隔2桶抽一桶,一共抽2桶!

桶号:x+y*(n-1) 抽0号桶和2号桶

举例2:

select * from stu_buck2 tablesample(bucket 1 out of 1 on id);

从第1桶开始抽,每间隔1桶抽一桶,一共抽4桶!

抽0,1,2,3号桶

举例3:

select * from stu_buck2 tablesample(bucket 2 out of 8 on id);

从第2桶开始抽,一共抽0.5桶!

抽1号桶的一半

然而,当我自己实验时,发现实际情况跟预期有偏差

建表语句:

--创建分桶表

数据:分好的桶如下

Hive小知识之分桶抽样

然而查询时却发现  本来打算取第2个桶里的4/8 数据,但返回的数据跟预期差得很多

Hive小知识之分桶抽样

其实

select * from 分桶表 tablesample(bucket x out of y on 分桶字段);
这个抽样查询的底层是把所有数据按照 字段的hash值 % y  分成y 个 区(相当于Hadoop里的分区),然后取第 x 区 中的数据。
之所以没有达到预期的效果,是因为用来测试的数据太少!

欢迎点赞+收藏+转发朋友圈素质三连

Hive小知识之分桶抽样

文章不错?点个【在看】吧!** 👇**

本文分享自微信公众号 - 大数据技术与架构(import_bigdata)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Docker 部署SpringBoot项目不香吗?
  公众号改版后文章乱序推荐,希望你可以点击上方“Java进阶架构师”,点击右上角,将我们设为★“星标”!这样才不会错过每日进阶架构文章呀。  !(http://dingyue.ws.126.net/2020/0920/b00fbfc7j00qgy5xy002kd200qo00hsg00it00cj.jpg)  2
Stella981 Stella981
3年前
ClickHouse大数据领域企业级应用实践和探索总结
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/bb00e5f54a164cb9827f1dbccdf87443.jpg)!(https://oscimg.oschina.net/oscnet/dc8da835ff1b4
Stella981 Stella981
3年前
Hive常用参数调优十二板斧
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/7ff84748c0f944e09dfe9714e2f139fe.jpg)!(https://oscimg.oschina.net/oscnet/70efaa70534b43e1
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Wesley13 Wesley13
3年前
2021年要做的大事,25个大数据必知领域全面开启更新
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/42781f98ab4944368ad1c15a8d27aff1.jpg)!(https://oscimg.oschina.net/oscnet/80fc2bcb43ac4fa0
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这