gpt4 book ai didi

etl - 如何使用 Apache Nifi 加入两个 CSV

转载 作者:行者123 更新时间:2023-12-04 13:40:42 26 4
gpt4 key购买 nike

我正在研究 ETL 工具(如 Talend)并调查是否可以使用 Apache Nifi。 Nifi 可用于执行以下操作:

  • 提取两个放在本地磁盘上的 CSV 文件
  • 在公共(public)列上加入 CSV
  • 将加入的 CSV 写入磁盘

  • 我尝试在 Nifi 中设置工作,但看不到如何执行两个单独的 CSV 文件的连接。这个任务在 Apache Nifi 中是否可行?
    它看起来像 QueryDNS processor可用于使用另一个 CSV 文件来丰富一个 CSV 文件,但对于这个用例来说,这似乎过于复杂。
    这是输入 CSV 的示例,需要在 state_id 上加入:
    输入文件
    客户.csv
    id | name | address      | state_id
    ---|------|--------------|---------
    1 | John | 10 Blue Lane | 100
    2 | Bob | 15 Green St. | 200
    states.csv
    state_id | state
    ---------|---------
    100 | Alabama
    200 | New York
    输出文件
    输出.csv
    id | name | address      | state
    ---|------|--------------|---------
    1 | John | 10 Blue Lane | Alabama
    2 | Bob | 15 Green St. | New York

    最佳答案

    Apache NiFi 更像是一种数据流工具,并不是真正用于执行流数据的任意连接。通常,这些类型的操作更适合流处理系统,如 Storm、Flink、Apex 等或 ETL 工具。

    NiFi 可以做得很好的连接类型是富集查找,其中有固定大小的查找数据集,并且对于传入数据中的每条记录,您使用查找数据集来检索一些值。例如,在您的情况下,可能有一个名为 LookUpState 的处理器,它有一个属性“状态数据”,它指向一个包含所有状态的文件,那么 customers.csv 可能是该处理器的输入。

    一位社区成员启动了一个为 NiFi 提供通用查找服务的项目:
    https://github.com/jfrazee/nifi-lookup-service

    关于etl - 如何使用 Apache Nifi 加入两个 CSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42908838/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com