Kettle系列教程-第六章:转换流程-输入组件
本系列教程基于Kettle 8.1(pdi-ce-8.1.0.0-365)。大部分内容同样适用于Kettle 7.x版本。
章节目录:
- 一、运行环境配置
- JDK
- JVM参数
- KETTLE_HOME
- 依赖包导入
- 二、转换与作业
- 转换流程
- 作业流程
- 三、数据库连接配置
- 创建数据库连接
- 共享数据库连接
- 数据库连接参数
- 四、资源库(数据库存储方式)
- 创建资源库
- 保存流程到资源库
- 从资源库打开流程
- 五、变量/参数
- 参数的配置与使用
- 变量的配置与使用
- 六、转换流程-输入组件
- Excel输入
- 表输入
- 七、转换流程-输出组件
- Excel输出
- 文本文件输出
- 表输出
- 八、转换流程-转换组件
- 九、脚本组件
- 转换-Java代码组件
- 作业-SQL组件
- 作业Shell组件
- 十、对接大数据平台
- 基础文件配置
- 上传文件到HDFS
- 连接Hive
- 十一、使用Windows计划任务定时执行Kettle作业
- 命令说明
- 编写批处理脚本执行Kettle作业
- 创建计划任务定时执行Kettle作业
- 十二、使用Java执行Kettle作业
- 搭建Kettle运行环境
- 代码示例(作业、转换、资源库)
本章说明
输入组件即是数据的入口,本章简单介绍一下转换流程【输入】分组下的常用的几个数据输入组件:Excel输入和表输入。
Excel输入
新建一个转换,从左侧【输入】分组下拖出【Excel输入】组件,并打开该组件配置页面,可以看到三个标有叹号的标签页,表示这三个标签页为必填项:
首先选择【表格类型】,根据Excel文件后缀区分即可,我这里准备了一个Excel 2016的文件,后缀是XLSX,故可以选择第二项或者第三项:
然后添加Excel文件,先点击【浏览】按钮选择目标Excel文件,然后点击【添加】按钮将文件添加到【选中的文件】列表中:
接着切换到【工作表】标签页,将数据所在工作表添加到列表中:

最后切换到【字段】选项卡,点击【获取来自头部数据的字段…】,会自动读取出表头字段信息,根据需要可以修改字段类型等属性:
然后就可以【预览记录】了:
表输入
表输入组件其实在前面的介绍中已经大致介绍过了,这里再介绍一下具体细节。新建一个转换,拖出【表输入】组件,打开【表输入】配置页面,数据库连接那里时可以选择已创建或者已共享的数据库连接的:
【数据库连接】右侧三个按钮分别是编辑当前连接、新建连接、创建连接向导。
【获取SQL查询语句】按钮可以查看该数据库连接下的所有表并快速生成SQL查询语句:
然后双击要查询的表,即可自动生成SQL语句,同时会弹出窗口询问是否展示出字段,点击是即可自动获取到字段:
本章完!
下一章:转换流程-输出组件