缺少hash join 和parallel 这种工具,MYSQL 注定不是个合适的数据仓库工具。
无论是是myisam还是innodb,在处理一个复杂的SQL查询的时候,并不能发挥多核CPU的性能。
只会有一个CPU正在满负荷地运转。
所以对于一个分析性数据库而言,MYSQL多核实际上是极大的浪费。
MYSQL做查询优化的时候,一个是注意在group by后面使用order by null,禁用默认的group by排序。
二是使用索引,5.6有condition push down的功能。可以大大提高索引查询的效率。
事务型应用尽量使用主键查询,或者查询的数据是有索引。
选择索引的字段,一定要符合差异率高的字段,甚至比联合索引带来的整体效果更好。
但是方案选型了以后,只能做更多的优化。
比如说:手动拆分SQL,再合并结果集。
my.cnf配置优化,增加临时表空间和key_buffer_size等等。
即使是KETTLE, DATASTAGE, 在处理海量数据的时候,也不能做到像hadoop那样分布式计算。
哎,如果让我选型的话,还是上PG库算了。