- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 NiFi 中,我有一个 cron 驱动的处理器序列,每天提供一组流文件,其中包含我感兴趣的 2 个属性:product_code
和 publication_date
.
我的需要是每个 product_code
只保留一个流文件: 最近的publication_date
.
例如:
对于这个输入:
flow_1: product_code: A / publication_date : 2018-01-01
flow_2: product_code: B / publication_date : 2018-01-01
flow_3: product_code: C / publication_date : 2018-01-01
flow_4: product_code: A / publication_date : 2018-04-12
flow_5: product_code: A / publication_date : 2000-12-31
flow_6: product_code: B / publication_date : 2018-02-02
flow_7: product_code: B / publication_date : 2018-03-03
预期的输出应该是:
flow_3: product_code: C / publication_date : 2018-01-01
flow_4: product_code: A / publication_date : 2018-04-12
flow_7: product_code: B / publication_date : 2018-03-03
UpdateAttribute
处理器添加属性 priority
每个流文件,基于 publication_date
.PriorityAttributePrioritizer
排队。publication_date
排序的。 .DetectDuplicate
基于 product_code
属性。由于流文件是从最近的项目到最旧的项目处理的,我确信当 product_code
被检测为重复,这是因为相同的product_code
最近的 publication_date
已经可以了.遗憾的是,当 cron 触发 DetectDuplicate
processor,只有一条消息被消费,其他的留在队列中。
如果我将“调度策略”更改为“定时器驱动”且“运行调度”为 0,则我的所有流文件都将被消耗并且输出符合预期。
有没有办法问我的DetectDuplicate
处理器在开始工作时消耗队列中的所有消息(而不仅仅是一条消息)?
或者有没有办法设置一个调度策略,比如“凌晨 2:00 开始工作,凌晨 4:00 停止”?
您有没有想出更好的策略来满足需求?
问候,
值(value)。
(2018-04-13) 更多信息,以及 Bryan Bende 的评论。
我知道 CRON 不是最好的解决方案,但我不知道如何改进我的算法来摆脱它。
在我的例子中,排队等待重复数据删除的流文件是通过一系列 3 个 REST 调用生成的:
这个流文件生成部分通常持续 5 分钟左右:昨晚第一个流文件在凌晨 2:00:16 到达队列,最后一个在凌晨 2:04:58 到达队列。 (这就是我将 DetectDuplicate
安排在凌晨 3:00 运行的原因。)
如果我的DetectDuplicate
处理器将被“定时器驱动”调度,第一个到达队列的流文件将被处理器消耗,然后所有流文件都在那里。
这会破坏整套流文件的顺序。
我觉得我必须等待所有流文件在 DetectDuplicate
之前进入队列处理器开始工作。
您有改进我的算法的潜在建议吗?
最佳答案
您通常应该对启动流程的源处理器使用 CRON 调度,然后所有其他处理器都应该使用 Run Schedule 为 0 的 Timer Driven。
例如,如果您每天凌晨 2:00 从目录中获取文件,则应使用 CRON 表达式安排 GetFile 在凌晨 2:00 开始流程,但除此之外的任何内容都不需要 CRON 安排,因为它们除非 GetFile 运行,否则永远不会接收数据。
在您希望处理器等待所有流文件可用之前执行的情况下,您可以使用 Wait/Notify 处理器,这样所有流文件在等待处理器之前建立起来释放到 DetectDuplicate 处理器。
关于cron - 如何在 CRON 驱动的 DetectDuplicate 中摄取所有流文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49796261/
嗨,我想运行一个 cron 作业来在我的服务器上调用 PHP 脚本。 我正在使用 Cpanel 从我的网络主机,这些是选项: 分钟: 小时: 日: 月份: 工作日: 命令: 我真的很难将命令指向我的文
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
有没有办法配置supervisor每 X 秒运行一些命令(如 CRON)? 我看到了 eventlistener 和 TICK_ 事件的例子 [eventlistener:memmon] comman
如果 Cron 有一项作业计划在凌晨 2 点运行,另一项作业在凌晨 3 点运行,那么这些作业会受到夏令时的影响吗? 当时间向后移动一小时时,时间是否会直接从凌晨 2:59:59 变为凌晨 2:00:0
第一个示例 假设我有一份 CRON 工作 30 2 * * * .... 然后每次晚上 2:30(本地时间)都会运行。 现在假设我的时区是欧洲/德国,并且是 2017 年 10 月 29 日(夏令时
我想在不到一分钟的时间内(例如每 30 秒)在主机上运行一个命令,但我无权访问 ssh。我只有 .我不知道如何使用它进行一些黑客攻击以在不到一分钟的时间内运行代码。 EDIT1:在这个问题中,我的访问
我探索并发现在 quartz cron 表达式中: sec min hour day_of_month month day_of_week year, 我们可以提供 day_of_month 或 da
我试图弄清楚是否可以设置一个 cron 作业,将所有文件从我的服务器上的一个文件夹传输到另一个文件夹,然后从另一个文件夹中获取一组文件(随机选择的文件)并将其放入原来的文件夹中。如果有关于如何执行此操
我服务器上的一个驱动器最近损坏了操作系统。我能够恢复所有文件,但现在我有一个只有文件系统的备份驱动器;不可启动。我现在正在设置一个新服务器,并且需要设置旧的 cron 作业。有没有办法查看文件结构以查
我尝试了 http://docs.opscode.com/resource_cron.html#examples 给出的最简单的例子 cron "name_of_cron_entry" do
我注意到很多人在讨论 Gearman,它的调度功能使它能够将工作分配到其他服务器上。但是,我还没有看到与本地 cronjobs 的比较。 cron 和 Gearman 有什么区别? 最佳答案 如果您正
我需要在此运行一份工作 cron日程安排,但似乎我无法在一份声明中表达这一点。有没有办法在一个 cron 中得到这个陈述? 周一至周六上午 8 点 下午 2 点 谢谢。 最佳答案 你是对的。恐怕这是不
我正在尝试在 OVH 网络主机上设置 cron。 要执行的脚本位于: /home/[登录ftp]/www/script.sh 因此,我使用此设置在 OVH 界面上创建了一个 cron: 要执行的命令:
这是cron我试过的表达 0 0 0 */14 * ?它给出了以下时间表 开始时间:- Friday, September 8, 2017 1:25 AM 下一个预定:- 1. Friday, Se
你如何从命令行创建一个 cron 作业,以便它在 gnome-schedule 中显示一个名称? 我知道如何使用 crontab 创建一个 cron 作业。但是,我所有的工作都以空白名称显示。我想更好
我有一个由 cron 安排的工作:每小时从服务器弹出电子邮件。 但有时我不想等待 60 分钟来查看我的电子邮件。为此,我使用了一个脚本,该脚本运行与 crontab 中相同的命令。它本质上就像在计划运
我想要一个每 2 小时 10 分钟运行一次的计划的 cron 表达式,我期望的输出是2:004:106:20我试过 0 0/2 0/2 * * ?为此,输出是这样的2012 年 11 月 1 日星期四
我有一个执行 shell 脚本的 cronjob在我的 shell 脚本中我做了一个模块加载 tww/perl 但它给了我 module: command not found 我能做什么?我至少有 1
在 Jenkins 中,我们将 Poll SCM 计划设置为 * * * * * .但 Jenkins 建议 Do you really mean "every minute" when you sa
在 logrotate 联机帮助页中,他们说: “通常,logrotate 作为日常 cron 作业运行”。 这是否意味着 logrotate 使用 cron(或由 cron 执行)? 如果是这样,这
我是一名优秀的程序员,十分优秀!