1.限制调整:
查询的时候经常会用到limit来现在数据条数。不过很多情况下limit语句还是需要执行整个查询语句,然后在返回结果,这通常是浪费的。通过配置:
<property>
<name>hive.limit.optimize.enable</name>
<value>true</true>
</property>
2.Join优化:
在处理小数据集的查询,消耗时间会比JOB消耗的要多,但通过单机模式,单个线程处理会有明显缩短;如此我们打开配置:
<property>
<name>hive.exec.mode.local.auto</name>
<value>true</true>
</property>
3.并行执行:
<property>
<name>hive.exec.parallel</name>
<value>true</true>
</property>