gpt4 book ai didi

apache-nifi - 使用 nifi 合并内容 - 长度不一致

转载 作者:行者123 更新时间:2023-12-04 03:08:21 66 4
gpt4 key购买 nike

我正在尝试使用 MergeContent 处理器在磁盘上写入一个文件,但我得到的文件大小明显不同 - 从一行到 806 行。我已经多次重复这个过程,试图找出 Apache NIFi MergeContent processor - set demarcator as new line 中提到的换行符。我得到了非常随机大小的文件。

我需要设置哪些参数才能遵循以下逻辑?

  • 建立单仓
  • 将所有流文件路由到 bin
  • 如果 len(bin)>X 或 bin 的年龄大于 Max Bin Age,则释放 bin

  • 为了完整记录,我目前定义了以下属性:
    Merge Content Processor settings
    Merge Content Processor settings

    如您所见,我已按照 https://github.com/apache/nifi/blob/31fba6b3332978ca2f6a1d693f6053d719fb9daa/nifi-nar-bundles/nifi-standard-bundle/nifi-standard-processors/src/test/java/org/apache/nifi/processors/standard/TestMergeContent.java#L219 中的语法将“Max Bin Age”设置为“10 sec”。 (这是我设法找到此值示例的唯一地方,有关此参数的文档似乎不完整)

    我已将“最大条目数”设置为 5000,将“最大箱数”设置为 1

    我需要做什么才能按照上述逻辑汇总我的记录?我还尝试使用“Correlation Attribute Name”参数,其属性保证在达到这一点的所有文档上都是相同的,并且看到了相同的

    最佳答案

    这里最重要的其实是最小条目数。发生的事情是分箱算法在项目数量方面采取了宽松的方法。

    对于您的特定逻辑,您希望保持现状,并且:

  • 将最小条目数设置为 5000
  • 或者,增加最大条目数。保留它的配置将生成正好 5000 个条目的 bin,除了那些年龄间隔已经黯然失色的时期

  • 下面是上面配置的图像,其中最小和最大 bin 大小均为 5000,并且一次仅处理 1 个 bin。在这种情况下,您会看到恰好 20000 个文件已合并为 4 个。

    Sample execution for a min and max bin size of 5000

    关于apache-nifi - 使用 nifi 合并内容 - 长度不一致,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34958347/

    66 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com