cron - 如何在 CRON 驱动的 DetectDuplicate 中摄取所有流文件？

转载作者：行者123 更新时间：2023-11-30 23:59:08

25

4

在 NiFi 中，我有一个 cron 驱动的处理器序列，每天提供一组流文件，其中包含我感兴趣的 2 个属性:product_code和 publication_date .

我的需要是每个 product_code 只保留一个流文件: 最近的publication_date .

例如:

对于这个输入:

flow_1: product_code: A / publication_date : 2018-01-01
flow_2: product_code: B / publication_date : 2018-01-01
flow_3: product_code: C / publication_date : 2018-01-01
flow_4: product_code: A / publication_date : 2018-04-12
flow_5: product_code: A / publication_date : 2000-12-31
flow_6: product_code: B / publication_date : 2018-02-02
flow_7: product_code: B / publication_date : 2018-03-03

预期的输出应该是:

flow_3: product_code: C / publication_date : 2018-01-01
flow_4: product_code: A / publication_date : 2018-04-12
flow_7: product_code: B / publication_date : 2018-03-03

我测试的算法

使用UpdateAttribute处理器添加属性 priority每个流文件，基于 publication_date .
这些更新的流文件被重定向到 PriorityAttributePrioritizer排队。
流文件留在这个队列中，因为只有一个消费处理器，它是 cron 驱动的。通过这种方式，我确定队列中的流文件是根据 publication_date 排序的。 .
然后 CRON 触发下一个处理器，a DetectDuplicate基于 product_code属性。由于流文件是从最近的项目到最旧的项目处理的，我确信当 product_code被检测为重复，这是因为相同的product_code最近的 publication_date 已经可以了.

问题

遗憾的是，当 cron 触发 DetectDuplicate processor，只有一条消息被消费，其他的留在队列中。

如果我将“调度策略”更改为“定时器驱动”且“运行调度”为 0，则我的所有流文件都将被消耗并且输出符合预期。

有没有办法问我的DetectDuplicate处理器在开始工作时消耗队列中的所有消息(而不仅仅是一条消息)？

或者有没有办法设置一个调度策略，比如“凌晨 2:00 开始工作，凌晨 4:00 停止”？

您有没有想出更好的策略来满足需求？

问候，

值(value)。

更新1

(2018-04-13) 更多信息，以及 Bryan Bende 的评论。

我知道 CRON 不是最好的解决方案，但我不知道如何改进我的算法来摆脱它。

在我的例子中，排队等待重复数据删除的流文件是通过一系列 3 个 REST 调用生成的:

第一次调用“GetAllCategories”，
然后为每个类别调用“GetSubCategories”，
并为每个子类别调用“GetProducts”。

这个流文件生成部分通常持续 5 分钟左右:昨晚第一个流文件在凌晨 2:00:16 到达队列，最后一个在凌晨 2:04:58 到达队列。 (这就是我将 DetectDuplicate 安排在凌晨 3:00 运行的原因。)

如果我的DetectDuplicate处理器将被“定时器驱动”调度，第一个到达队列的流文件将被处理器消耗，然后所有流文件都在那里。

这会破坏整套流文件的顺序。

我觉得我必须等待所有流文件在 DetectDuplicate 之前进入队列处理器开始工作。

您有改进我的算法的潜在建议吗？

最佳答案

您通常应该对启动流程的源处理器使用 CRON 调度，然后所有其他处理器都应该使用 Run Schedule 为 0 的 Timer Driven。

例如，如果您每天凌晨 2:00 从目录中获取文件，则应使用 CRON 表达式安排 GetFile 在凌晨 2:00 开始流程，但除此之外的任何内容都不需要 CRON 安排，因为它们除非 GetFile 运行，否则永远不会接收数据。

在您希望处理器等待所有流文件可用之前执行的情况下，您可以使用 Wait/Notify 处理器，这样所有流文件在等待处理器之前建立起来释放到 DetectDuplicate 处理器。

关于cron - 如何在 CRON 驱动的 DetectDuplicate 中摄取所有流文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49796261/

25

4

0

文章推荐： javascript - .exec() 和 .split() 的 RegExp 工作方式不同

文章推荐： javascript - ReactJs - 调用第二个函数参数

文章推荐： javascript - 如何检查响应变量是否存在且具有值

文章推荐： FlashDevelop -- 指定一个 HXML 文件？

cron - Cron 作业的文件路径
嗨，我想运行一个 cron 作业来在我的服务器上调用 PHP 脚本。我正在使用 Cpanel 从我的网络主机，这些是选项: 分钟: 小时: 日: 月份: 工作日: 命令: 我真的很难将命令指向我的文
cron - cron 教程
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
cron - 使用主管作为 CRON
有没有办法配置supervisor每 X 秒运行一些命令(如 CRON)？我看到了 eventlistener 和 TICK_ 事件的例子 [eventlistener:memmon] comman
cron - 夏令时和 Cron
如果 Cron 有一项作业计划在凌晨 2 点运行，另一项作业在凌晨 3 点运行，那么这些作业会受到夏令时的影响吗？当时间向后移动一小时时，时间是否会直接从凌晨 2:59:59 变为凌晨 2:00:0
cron - CRON 的触发速度有多快？
第一个示例假设我有一份 CRON 工作 30 2 * * * .... 然后每次晚上 2:30(本地时间)都会运行。现在假设我的时区是欧洲/德国，并且是 2017 年 10 月 29 日(夏令时
cron - 在主机中运行 cron 不到一分钟
我想在不到一分钟的时间内(例如每 30 秒)在主机上运行一个命令，但我无权访问 ssh。我只有 .我不知道如何使用它进行一些黑客攻击以在不到一分钟的时间内运行代码。 EDIT1:在这个问题中，我的访问
cron - 在 cron 表达式中使用月份和星期几
我探索并发现在 quartz cron 表达式中: sec min hour day_of_month month day_of_week year, 我们可以提供 day_of_month 或 da
cron - 使用 cron 传输文件？
我试图弄清楚是否可以设置一个 cron 作业，将所有文件从我的服务器上的一个文件夹传输到另一个文件夹，然后从另一个文件夹中获取一组文件(随机选择的文件)并将其放入原来的文件夹中。如果有关于如何执行此操
cron - 通过文件结构恢复 cron 作业
我服务器上的一个驱动器最近损坏了操作系统。我能够恢复所有文件，但现在我有一个只有文件系统的备份驱动器；不可启动。我现在正在设置一个新服务器，并且需要设置旧的 cron 作业。有没有办法查看文件结构以查
cron - Chef 无法创建 cron
我尝试了 http://docs.opscode.com/resource_cron.html#examples 给出的最简单的例子 cron "name_of_cron_entry" do
cron - 使用齿轮工与 cron 进行调度？
我注意到很多人在讨论 Gearman，它的调度功能使它能够将工作分配到其他服务器上。但是，我还没有看到与本地 cronjobs 的比较。 cron 和 Gearman 有什么区别？最佳答案如果您正
cron - 在单个 CRON 语句中指定周一至周六和周日的不同时间
我需要在此运行一份工作 cron日程安排，但似乎我无法在一份声明中表达这一点。有没有办法在一个 cron 中得到这个陈述？周一至周六上午 8 点下午 2 点谢谢。最佳答案你是对的。恐怕这是不
cron - OVH - 执行 cron
我正在尝试在 OVH 网络主机上设置 cron。要执行的脚本位于: /home/[登录ftp]/www/script.sh 因此，我使用此设置在 OVH 界面上创建了一个 cron: 要执行的命令:
cron - 如何每两周创建一个 cron 表达式
这是cron我试过的表达 0 0 0 */14 * ?它给出了以下时间表开始时间:- Friday, September 8, 2017 1:25 AM 下一个预定:- 1. Friday, Se
cron - 创建命名的 Cron 作业
你如何从命令行创建一个 cron 作业，以便它在 gnome-schedule 中显示一个名称？我知道如何使用 crontab 创建一个 cron 作业。但是，我所有的工作都以空白名称显示。我想更好
cron - 立即运行 cron 而不更改其设置
我有一个由 cron 安排的工作:每小时从服务器弹出电子邮件。但有时我不想等待 60 分钟来查看我的电子邮件。为此，我使用了一个脚本，该脚本运行与 crontab 中相同的命令。它本质上就像在计划运
cron - 如何为小时和分钟构建 cron 表达式
我想要一个每 2 小时 10 分钟运行一次的计划的 cron 表达式，我期望的输出是2:004:106:20我试过 0 0/2 0/2 * * ？为此，输出是这样的2012 年 11 月 1 日星期四
cron - 从 cron 作业加载模块
我有一个执行 shell 脚本的 cronjob在我的 shell 脚本中我做了一个模块加载 tww/perl 但它给了我 module: command not found 我能做什么？我至少有 1
cron - Jenkins cron 格式
在 Jenkins 中，我们将 Poll SCM 计划设置为 * * * * * .但 Jenkins 建议 Do you really mean "every minute" when you sa
cron - logrotate 是否依赖于 cron？
在 logrotate 联机帮助页中，他们说: “通常，logrotate 作为日常 cron 作业运行”。这是否意味着 logrotate 使用 cron(或由 cron 执行)？如果是这样，这

首页

博学

6Ren·AI

商城

cron - 如何在 CRON 驱动的 DetectDuplicate 中摄取所有流文件？

我测试的算法

问题

更新1