Kettle 使用Impala遇到plugin id [IMPALASIMBA] couldn't be found!

这个该死的问题查了我整整3天，差点就放弃了。kettle用的人不多，文档也不太全，源码又重又大。

需求是从Impala用SQL读取数据，写入MYSQL。

环境是： pdi-ce-7.0.0.0-25

Linux： CentOS7

连接的是Cloudera Impala，使用第三方JDBC jar包：ImpalaJDBC4.jar

在Windows环境下，使用spoon.bat编写的JDBC同步逻辑是可以使用的，没有问题。

在Linux下面，运行第一次的时候，也可以正常运行，但是第二次运行后，就会报：

Error reading object from XML file
Unable to load database connection info from XML node
Unable to create new database interface
database type with plugin id [IMPALASIMBA] couldn't be found!

根据baidu某帖子，删除$KETTLE_HOME/system/karaf/caches 下的内容后，就可以顺利执行。

但是你不可能每次运行kettle作业都删一次本地缓存，这样并发进程的时候可能会出现bug。

怀疑是karaf这个OSGi容器生成的bundle有问题，思路就是不让它生成缓存文件就是了。据了解，Apache Karaf 每次加载一个Class，就会在Bundle里面生成一个classloader。

最后顺藤摸瓜，加了一个配置：

if [ -z "$PENTAHO_DI_JAVA_OPTIONS" ]; then
    PENTAHO_DI_JAVA_OPTIONS="-Xms1024m -Xmx2048m -XX:MaxPermSize=256m -Dpentaho.karaf.root.transient=true"
fi

在spoon.sh的代码里面，加入了-Dpentaho.karaf.root.transient=true。这样就不会生成缓存了，多次执行也OK。

目前可以解决当前使用。

ref: https://help.pentaho.com/Documentation/6.1/0P0/100/Karaf_Performance_Tuning https://www.cnblogs.com/lxnz/p/7772060.html

https://blog.csdn.net/fengfengchen95/article/details/83990760