Kettle系列教程-第四章:资源库(数据库存储方式)
本系列教程基于Kettle 8.1(pdi-ce-8.1.0.0-365)。大部分内容同样适用于Kettle 7.x版本。
章节目录:
- 一、运行环境配置
- JDK
- JVM参数
- KETTLE_HOME
- 依赖包导入
- 二、转换与作业
- 转换流程
- 作业流程
- 三、数据库连接配置
- 创建数据库连接
- 共享数据库连接
- 数据库连接参数
- 四、资源库(数据库存储方式)
- 创建资源库
- 保存流程到资源库
- 从资源库打开流程
- 五、变量/参数
- 参数的配置与使用
- 变量的配置与使用
- 六、转换流程-输入组件
- Excel输入
- 表输入
- 七、转换流程-输出组件
- Excel输出
- 文本文件输出
- 表输出
- 八、转换流程-转换组件
- 九、脚本组件
- 转换-Java代码组件
- 作业-SQL组件
- 作业Shell组件
- 十、对接大数据平台
- 基础文件配置
- 上传文件到HDFS
- 连接Hive
- 十一、使用Windows计划任务定时执行Kettle作业
- 命令说明
- 编写批处理脚本执行Kettle作业
- 创建计划任务定时执行Kettle作业
- 十二、使用Java执行Kettle作业
- 搭建Kettle运行环境
- 代码示例(作业、转换、资源库)
本章说明
本篇内容为第四章:资源库(数据库存储方式)。
由于默认的转换、作业流程存储方式为单个文件存储,当有很多个转换、作业文件的时候,管理起来会很麻烦,所以这个时候就需要用到资源库了,用于统一管理转换、作业流程。资源库有两种存储方式:数据库存储和文件存储,本章只讲解数据库存储方式。
创建资源库
首先需要创建一个字符集编码为UTF8的空白数据库(为什么指定编码为UTF8?因为不指定编码可能会出现中文乱码情况)。还是以MySQL为例,创建一个数据库名为kettle的空白数据库,并指定字符集编码:CREATE DATABASE kettle DEFAULT CHARSET=UTF8;。
然后点击Spoon界面右上角的Connect按钮,在弹出的窗口中点击Other Repositories:
然后选中Database Repository,点击Get Started:
给资源库起个名字,再点击None:
弹出的窗口中点击Create New Connection:
配置一下刚创建的kettle数据库的连接信息:
再配置一下连接参数:
测试通过后,即可保存。
然后选中刚创建的数据库连接mysql-repo,再点击Back:
确认配置无误后,点击Finish:
初始化数据库,稍等一会即可:

初始化完成,点击Connect Now,输入admin/admin,然后点击Connect即可连接到资源库。有兴趣的话可以去看下资源库的表结构:
此时Spoon界面右上角会变成这样:
保存转换、作业流程到资源库
这一部分Kettle 8.1与Kettle 7.x差别较大。
新建一个转换或者作业,Ctrl + S保存,如果已经连接了资源库,则默认保存到资源库中:
右上角可以新建目录:
选中保存位置,填写转换或者作业名称,点击Save即可保存到资源库。
从资源库打开转换、作业流程
- 打开单个流程:
Ctrl + O或者左上角文件 -> 打开,选中要打开的流程,Open即可:
- 批量打开多个流程:
Ctrl + E或者菜单栏 -> 工具 -> 资源库 -> 探索资源库,同时选中多个流程,然后按回车键,即可批量打开多个流程:
管理资源库
Ctrl + E或者菜单栏 -> 工具 -> 资源库 -> 探索资源库,右键菜单可以对目录、流程进行删除或者重命名等操作:
本章完!
下一章:变量/参数