Easter79 Easter79
3年前
sqoop从hive导入数据到mysql时出现主键冲突
今天在将一个hive数仓表导出到mysql数据库时出现进度条一直维持在95%一段时间后提示失败的情况,搞了好久才解决。使用的环境是HUE中的Oozie的workflow任何调用sqoop命令,该死的oozie的日志和异常提示功能太辣鸡了,最后发现是重复数据导致数据进入mysql表时出现主键冲突进而导致数据同步失败。(1)众所周知hive表是没有主键与索引
Stella981 Stella981
3年前
HIVE string与varchar调研文档
一、简要介绍:Hive有2种类型用于存储变长文本。1.Hive0.12.0版本引入了VARCHAR类型,VARCHAR类型使用长度指示器(1到65355)创建,长度指示器定义了在字符串中允许的最大字符数量。如果一个字符串值转换为或者被赋予一个varchar值,其长度超过了长度指示器则该字符串值会自动被截断。2.STRING存储变长的文本,对长度
Stella981 Stella981
3年前
Cube的构建过程
Cube的构建方式有两种:全量构建和增量构建。两者的构建过程完全一样,区别在于构建时读取的数据源是全集还是子集。Cube的构建步骤:1.创建临时的Hive平表(从Hive读取数据)。2.计算各维度的不同值,并收集各Cuboid的统计数据。3.创建并保存字典。4.保存Cuboid统计信息。5.创建HTable。6.计算
Stella981 Stella981
3年前
Hive在SQL标准权限模式下创建UDF失败的问题排查
环境:CDH5.16Hive1.1.0已开启KerberosHive授权使用SQLStandardsBasedAuthorization模式(以下简称SSBA模式)症状表现:在编译好UDF的jar包之后,上传到HDFS目录。hdfs dfsmkdi
Stella981 Stella981
3年前
Hive 2、Hive 的安装配置(本地MySql模式)
一、前提条件  安装了Zookeeper、Hadoop HDFS HA 安装方法: http://www.cnblogs.com/raphael5200/p/5154325.html(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fwww.cnblogs.com%2Fraph
Stella981 Stella981
3年前
Hive和HBase有哪些区别与联系及适用场景
hiveHive是运行在Hadoop上的一个工具,准确地讲是一个搜索工具。当对海量数据进行搜索时,Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂的编程过程简化成了用SQL语言对海量数据的操作。这大大减轻了程序员的工作量。可以说,Hive的存在让海量数据的增删改查更加方便。
Stella981 Stella981
3年前
Hue中hive(hive cli)查询结果中显示列名,不带表名
hivecli中显示列名进入hivecli后sethive.cli.print.headertrue;之后出现列名,但是带了表名前缀,由于网上没找到资料,于是到官网肉眼扫描所有参数,总算找到,给大家分享下。hivecli中,sethive.resultset.use.unique.column.namesfalse;
Stella981 Stella981
3年前
Hive SQL经典优化案例
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/94bbfe1fbe2f4d0db2377602bf27c988.jpg)!(https://oscimg.oschina.net/oscnet/302e2b33a7dc4b67
Stella981 Stella981
3年前
Hadoop Hive基础sql语法
1.DDL操作1.建表2.3.创建简单表4.创建外部表5.建分区表6.建Bucket表7.创建表并创建索引字段ds8.复制一个空表9.显示所有表10.按正条件正则表达式显示表11.修改表结构12.表添加一列13.添加一列并增加列字段注释14.更改表名15.删除列16.增加删除分区17.重命名表18.修改列的名字类型位置注
Stella981 Stella981
3年前
Hive性能优化(全面)
1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是mapreduce作业初始化的时间是比较长的。sum,