gpt4 book ai didi

hadoop - Hadoop 文件的最佳分隔符

转载 作者:可可西里 更新时间:2023-11-01 16:32:26 26 4
gpt4 key购买 nike

如果我从系统中写入 csv 样式文件以供 Hadoop 使用。在文件中使用的最佳列分隔符是什么?我已经尝试过 ctrl-A,但在我看来这很痛苦,因为其他程序不一定会显示它,例如,我可能会使用 vi、记事本、网络浏览器、excel 查看文件。逗号很麻烦,因为数据也可能包含逗号。我正在考虑在选项卡上进行标准化。是否有关于 Hadoop 的最佳实践或无关紧要。我进行了相当多的搜索,但在这个相当基本的问题上找不到太多信息。

最佳答案

当然,每个人都需要权衡取舍。这实际上取决于您最关心的是什么。

逗号 - 如果您关心互操作性。每个工具都适用于 CSV。数据中的逗号仅在书写系统未正确转义或阅读系统不尊重转义时才会令人痛苦。据我所知,Hive 可以正确处理转义。

制表符 - 如果您关心互操作性并期望数据中有逗号但没有制表符。您不太可能在数据中使用制表符,但任何给定工具都不太可能支持 TSV。

Ctrl+A- 如果您只关心 hadoop 生态系统功能。这无疑已经成为事实上的 hadoop 标准,但 hadoop 也很容易支持逗号和制表符。好处是您通常不必关心转义。

最后,我认为这通常是一个折腾,假设你正确地转义(你应该是!)。没有最佳实践。如果您发现自己非常担心这类事情,您可能还想升级到更严格的序列化格式,例如 Avro,它在 Hadoop 世界中得到了很好的支持。

关于hadoop - Hadoop 文件的最佳分隔符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24358182/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com