这个该死的问题查了我整整3天,差点就放弃了。kettle用的人不多,文档也不太全,源码又重又大。
需求是从Impala用SQL读取数据,写入MYSQL。
环境是: pdi-ce-7.0.0.0-25
Linux: CentOS7
连接的是Cloudera Impala,使用第三方JDBC jar包:ImpalaJDBC4.jar
在Windows环境下,使用spoon.bat编写的JDBC同步逻辑是可以使用的,没有问题。
在Linux下面,运行第一次的时候,也可以正常运行,但是第二次运行后,就会报:
Error reading object from XML file
Unable to load database connection info from XML node
Unable to create new database interface
database type with plugin id [IMPALASIMBA] couldn't be found!
根据baidu某帖子,删除$KETTLE_HOME/system/karaf/caches 下的内容后,就可以顺利执行。
但是你不可能每次运行kettle作业都删一次本地缓存,这样并发进程的时候可能会出现bug。
怀疑是karaf这个OSGi容器生成的bundle有问题,思路就是不让它生成缓存文件就是了。据了解,Apache Karaf 每次加载一个Class,就会在Bundle里面生成一个classloader。
最后顺藤摸瓜,加了一个配置:
if [ -z "$PENTAHO_DI_JAVA_OPTIONS" ]; then
PENTAHO_DI_JAVA_OPTIONS="-Xms1024m -Xmx2048m -XX:MaxPermSize=256m -Dpentaho.karaf.root.transient=true"
fi
在spoon.sh的代码里面,加入了-Dpentaho.karaf.root.transient=true。这样就不会生成缓存了,多次执行也OK。
目前可以解决当前使用。
ref: https://help.pentaho.com/Documentation/6.1/0P0/100/Karaf_Performance_Tuning https://www.cnblogs.com/lxnz/p/7772060.html
https://blog.csdn.net/fengfengchen95/article/details/83990760