gpt4 book ai didi

java - 在Pentaho Kettle中,如何检查文件名是否存在?

转载 作者:行者123 更新时间:2023-12-01 18:56:34 30 4
gpt4 key购买 nike

我是 pentaho 水壶的新手...

目前,我有一个包含许多 .txt 文件的文件夹。

举个例子:20121012.txt,20121014.txt......

每次我运行kettle作业时,它都会grep所有这些文件以导入数据库。

我需要在导入数据库之前进行检查,以防止数据重复。

问题是,如何让kettle注意到已经导入的文件名?

例如:

20121012.txt <=如果导入该文件,下次会检查该文件的文件名,如果相同则不导入。

在这种情况下,我不能在“检查文件是否存在”步骤中简单地设置特定文件“20121012.txt”。这是因为txt文件量很大。如果文件名指的是一天,则 1 年包含 365-366 天。我无法以这种方式对全天文件进行硬编码。

因此,可能的方法是在导入数据库之前检查该进程文件的文件名是否存在。

这就是我的问题,我该如何做到这一点?我需要使用哪些步骤或工作流程?谁能提供可能做到这一点的详细步骤?

我期待收到您的来信,如果您需要更多信息,请告诉我。

感谢大家的帮助!

最佳答案

您可以通过将已处理的文件列表存储在数据库中的表等位置来实现此目的。在另一个步骤中加载表,然后通过合并连接步骤中的流,并仅传递文件加载步骤中不在其他流中的文件。

请确保稍后使用任何新处理的文件更新已处理的表。

关于java - 在Pentaho Kettle中,如何检查文件名是否存在?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13765937/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com