hive函数所有文章-最新hive函数相关文章汇总-第6页-HelloWorld开发者社区

•

4年前

今天在将一个hive数仓表导出到mysql数据库时出现进度条一直维持在95%一段时间后提示失败的情况，搞了好久才解决。使用的环境是HUE中的Oozie的workflow任何调用sqoop命令，该死的oozie的日志和异常提示功能太辣鸡了，最后发现是重复数据导致数据进入mysql表时出现主键冲突进而导致数据同步失败。（1）众所周知hive表是没有主键与索引

Stella981

•

4年前

Spark on Hive & Hive on Spark，傻傻分不清楚

!(https://oscimg.oschina.net/oscnet/6d5972fad7cb5d1185a9d1fbec61bc47446.jpg)(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU3MzgwNT

Stella981

•

4年前

Apache Sentry实战之旅（二）—— Sentry客户端使用

ApacheSentry虽然可以将HDFS、Hive与Impala三个组件的权限认证统一，但是只能按照给组授予角色的方式来进行授权，不能直接授权给组中的用户，显得不太灵活。有时候为了兼容已有大数据平台的授权体系，比如只使用Sentry控制Impala服务的权限，而不控制Hive和HDFS服务的权限，希望通过调用Sentry客

Stella981

•

4年前

HIVE string与varchar调研文档

一、简要介绍：Hive有2种类型用于存储变长文本。1.Hive0.12.0版本引入了VARCHAR类型，VARCHAR类型使用长度指示器（1到65355）创建，长度指示器定义了在字符串中允许的最大字符数量。如果一个字符串值转换为或者被赋予一个varchar值，其长度超过了长度指示器则该字符串值会自动被截断。2.STRING存储变长的文本，对长度

Stella981

•

4年前

Cube的构建过程

Cube的构建方式有两种：全量构建和增量构建。两者的构建过程完全一样，区别在于构建时读取的数据源是全集还是子集。Cube的构建步骤：1.创建临时的Hive平表（从Hive读取数据）。2.计算各维度的不同值，并收集各Cuboid的统计数据。3.创建并保存字典。4.保存Cuboid统计信息。5.创建HTable。6.计算

Stella981

•

4年前

Hive在SQL标准权限模式下创建UDF失败的问题排查

环境：CDH5.16Hive1.1.0已开启KerberosHive授权使用SQLStandardsBasedAuthorization模式（以下简称SSBA模式）症状表现：在编译好UDF的jar包之后，上传到HDFS目录。hdfs dfsmkdi

Stella981

•

4年前

Hive 2、Hive 的安装配置(本地MySql模式)

一、前提条件　　安装了Zookeeper、Hadoop HDFS HA 安装方法： http://www.cnblogs.com/raphael5200/p/5154325.html(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fwww.cnblogs.com%2Fraph

Stella981

•

4年前

Hive和HBase有哪些区别与联系及适用场景

hiveHive是运行在Hadoop上的一个工具，准确地讲是一个搜索工具。当对海量数据进行搜索时，Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂的编程过程简化成了用SQL语言对海量数据的操作。这大大减轻了程序员的工作量。可以说，Hive的存在让海量数据的增删改查更加方便。

Stella981

•

4年前

Hue中hive（hive cli）查询结果中显示列名，不带表名

hivecli中显示列名进入hivecli后sethive.cli.print.headertrue;之后出现列名，但是带了表名前缀，由于网上没找到资料，于是到官网肉眼扫描所有参数，总算找到，给大家分享下。hivecli中，sethive.resultset.use.unique.column.namesfalse;

Stella981

•

4年前

Hive性能优化（全面）

1.介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是mapreduce作业初始化的时间是比较长的。sum,