gpt4 book ai didi

amazon-web-services - AWS Glue 爬虫无法对 CSV 文件进行分类

转载 作者:行者123 更新时间:2023-12-05 05:10:45 25 4
gpt4 key购买 nike

我无法获得默认的爬虫分类器,也无法获得自定义分类器来处理我的许多 CSV 文件。分类被列为“未知”。我试过重新运行现有的分类器,以及创建新的分类器。有人知道适用于任何大小文件的 CSV 文件自定义分类器的特定配置吗?

我也无法在日志中找到与此问题相关的任何错误。

虽然我已经看到有关大小超过 1MB 的 JSON 文件的问题的引用资料,但我找不到任何详细说明 CSV 文件的相同问题的信息,也找不到该问题的解决方案。

最佳答案

Glue Crawler 支持的默认 CSV 分类器:

CSV - Checks for the following delimiters: comma (,), pipe (|), tab (\t), semicolon (;), and Ctrl-A (\u0001). Ctrl-A is the Unicode control character for Start Of Heading.

如果您有任何其他分隔符,则它将不适用于默认的 CSV 分类器。在这种情况下,您将不得不编写 grok 模式。

关于amazon-web-services - AWS Glue 爬虫无法对 CSV 文件进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56350593/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com