gpt4 book ai didi

dataset - 如何在不丢失 Foundry 中的其他列的情况下将 excel 附加到现有数据集?

转载 作者:行者123 更新时间:2023-12-03 20:47:57 25 4
gpt4 key购买 nike

上下文:我们的业务用户通过邮件接收他们想要导入 Foundry 的 Excel 表格 (.xlsx)。我们就文件和选项卡的给定结构和命名约定达成一致,以便简单地将它们拖放到特定文件夹中并将它们附加到现有数据集。这个现有数据集的变化然后触发一个管道(原始->清洁->本体)。
问题:我们使用“附加列”来清理数据并基于它们应用一些逻辑(_filePath、_byteOffset、_importedAt),但每次附加新的 excel 时,架构似乎都被重置,并且“附加列”未被选中。
Additional Columns unticked in "Edit schema"
在将 Excel 工作表导入并附加到现有数据集后,有没有办法保留“附加列”?

最佳答案

不幸的是,通过拖放界面导入总是替换导入时的现有架构,这就是您丢失附加列的原因。如果您可以将文件创建为 CSV 而不是 XLS,那么您可以附加并保留现有架构,包括附加列。另一种方法(尽管是间接的)是在 raw 和 clean 之间有一个额外的步骤,它调用元数据 API 来添加可选列。
你想设置这些 textParserParam 参数:

textParserParams["addFilePath"] = True
textParserParams["addByteOffset"] = True
textParserParams["addImportedAt"] = True

关于dataset - 如何在不丢失 Foundry 中的其他列的情况下将 excel 附加到现有数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64678433/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com