gpt4 book ai didi

csv - 如何在管理数据转换的同时按勺子、pentaho 中的列合并 2 个 csv 文件?

转载 作者:行者123 更新时间:2023-12-01 06:44:50 25 4
gpt4 key购买 nike

我面临以下问题:

我有两个输入:
1)我有一个包含 35 列及其正确标题的 csv 基本文件。
2)我有各种给定的文件,不受我控制,可能包含也可能不包含 35 列,更糟糕的是,它们可能是乱序的。

我必须将第二个 csv 文件中的列与第一个 csv 文件中的列进行匹配。如果第二个 csv 文件没有全部 35 列,我应该按正确的顺序创建它们。

一旦我有了一个合适的 csv 文件(标题看起来像第一个 csv 标题的文件),我会将它传递给一个脚本,该脚本管理通过列标题引用它们的数据。

一种可能的解决方案是在脚本中获取现有的字段输入,但是,我无法这样做,因为这些字段似乎是固定的,引用了第二个 csv 文件的现有列标题。因此,当我尝试访问一个不存在的列时,我最终遇到了一个异常......

任何帮助将不胜感激!

最佳答案

This is an example data widening.

术语“ 第二个 csv 中的字段乱序 ”可能有多种含义

  • csv 文件来源相同,但字段顺序不时不同
  • csv文件中字段(列号)的位置在不同来源提供的文件中是不同的。

  • 第一种情况真的很奇怪。相同的来源应该提供相同的数据,如果这不是真的,那么做出决策的逻辑可能会非常复杂。

    第二种情况看起来更真实。在这种情况下,您可以将所有源设置为 35 个字段宽。然后你需要识别字段。在kettle 中有很多可用的工具来检测数据类型、字符串操作、正则表达式等。

    实际上听起来您需要自动检测字段。

    但没有真实数据,很难看出规律。由于您在数据库级别实现了这种字段检测逻辑,因此在水壶中也是可能的。

    无论如何如果逻辑真的很复杂,那么使用JavaStep,JavaScript。

    关于csv - 如何在管理数据转换的同时按勺子、pentaho 中的列合并 2 个 csv 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6740399/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com