gpt4 book ai didi

csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"

转载 作者:可可西里 更新时间:2023-11-01 15:32:49 24 4
gpt4 key购买 nike

这是一个最佳实践问题。

我们的设置是一个 hadoop 集群,将(日志)数据存储在 hdfs 中。我们获取csv格式的数据,每天一个文件。在 hadoop 中对这些文件运行 MR 作业没问题,只要文件的“架构”(尤其是列数)不变即可。

但是,我们面临的问题是,我们要分析的日志记录最终会发生变化,因为可能会添加或删除列。我想知道你们中的一些人是否愿意分享针对此类情况的最佳实践。我们目前能想到的最好的方式是将数据存储为 json 格式而不是 csv。但是,这会增加(至少增加一倍)所需的存储空间。我们还遇到了 Apache Avro 和 Apache Parquet,并且刚刚开始对此进行研究。

欢迎就此问题提出任何想法和意见。

最佳答案

使用 Thrift 和 elephant bird (twitter lib) 来使用相关的文件输入/输出格式。

关于csv - 最佳实践 : how to handle data records with changing "schema"/ "columns",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29915579/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com