gpt4 book ai didi

avro - Avro 中特定数据类型的最佳实践

转载 作者:行者123 更新时间:2023-12-04 15:59:39 25 4
gpt4 key购买 nike

我很想了解在 Avro 中编码两种非常特定类型的数据的最佳实践:时间戳和 IP 地址。

我遇到了时间戳 ( https://issues.apache.org/jira/browse/AVRO-739 ) 的开放 JIRA 票证,但看起来这个话题已经沉寂了一段时间。那么 - 在 Avro 中编码时间戳的最佳实践是什么(最好用于 MapReduce、Pig、Hive、Streaming 上下文中的下游使用)。

此外,我很想听听其他人是如何将 IP 地址编码为 Avro 的。

最佳答案

我对 Avro 中的类型编码有一些经验。就我而言,一个很大的要求是通过 Hive 访问数据。

  • 对于时间戳,我建议使用带有 unix 时间戳的浮点数。大多数其他库都支持这一点,并且可以轻松地与 Hive 配合使用,因为您可以转换为时间戳。
  • 对于 IP 地址,我将使用字符串编码。我认为使用数据时字符串的可读性使它成为最好的类型。如果您有其他要求,例如保持数据大小,则二进制编码可能更适合您。
  • 关于avro - Avro 中特定数据类型的最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14673318/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com