亲宝软件园·资讯

展开

kettle数据质量统计

唯爱编程 人气:0

1.利用Kettle的“分组”,“JavaScript代码”,“字段选择”组件,实现数据质量统计。
2.熟练掌握“JavaScript代码”,“分组”等组件的使用,实现数据质量统计。

【实验原理】
通过“JavaScript代码”对表格的记录进行质量分类,然后通过“字段选择”生成带质量标志位字段的数据,再通过“分组”统计数据的质量问题。

【实验环境】
操作系统:Windows10 
Kettle版本:7.1.0.0
jdk版本:1.8.0及以上版本

【实验步骤】

一、建立转换

双击spoon.bat打开kettle。(1)点击新建按钮,在下拉菜单中点击选择“转换”即可创建;(2)然后点击“保存”重命名该转换文件,保存在某个指定的路径;(3)选择输入步骤、、数据处理、输出步骤和跳。

二、各组件的配置

1.“Excel的输入”的配置
Step1:双击‘Excel输入’组件,配置‘文件’选项卡,设置输入数据的输入流和路径

Step2:配置‘工作表’选项卡,设置输入数据的起始行和起始列

Step3:配置‘字段’选项卡,获取字段名称,并设置字段的数据类型(重点,以防报错)

2.“JavaScript代码”的配置:
双击“JavaScript代码”组件,编写代码设置并判断课程名称和课时数是否为空,这两个字段用以检测输入数据的数据质量。

3.“字段选择”的配置:
双击‘字段选择’组件,配置‘选择和修改’选项卡,获取后续步骤选择的字段

4.“Microsoft Excel 中间标志数据输出”配置
Step1:配置‘文件&工作表’选项卡,设置输出文件的名称、类型以及路径

Step2:配置‘字段’选项卡,获取字段并设置其类型,设置字段的格式(重点)

5.“分组”配置
双击‘分组’组件,在JavaScript组件的代码里设置的字段进行聚合

6.“Microsoft Excel 数据质量统计输出”配置
Step1:配置‘文件&工作表’选项卡,设置输出文件的名称、类型以及路径

Step2:配置‘字段’选项卡,获取字段并设置其类型(多余字段可删除)

三、执行转换

点击按钮,执行转换,结果如下:

四、实验结果:

输入文件‘课程信息表07.xlsx’:

输出文件‘test6_2.xls’:

输出文件‘test6_22.xls’:

五、实验总结

本次实验的目的主要是通过“JavaScript代码”对表格的记录进行质量分类,并使用“分组”对数据质量进行统计。本次实验过程中,学习到新的思想办法处理数据,且暂未遇到较大的困难。

附 件:

加载全部内容

相关教程
猜你喜欢
用户评论