gpt4 book ai didi

hadoop - 每天处理 10 B 行数据以创建变量(计算列)的最佳方法是什么?

转载 作者:可可西里 更新时间:2023-11-01 16:38:15 27 4
gpt4 key购买 nike

假设您有一个历史数据,并且每天都会向其中添加几百万行数据。需要每天处理整个数据并更新变量。您将如何使用大数据平台解决这个问题?

如果需要,很乐意提供更多详细信息。

最佳答案

尽量不要重新处理整个 10B 行......我不知道你在那么大的数据集中到底在寻找什么,但很可能有一个统计模型可以在其中保存摘要信息,并根据它重新处理增量。

cricket_007 是对的,HDFS 和 Spark 可能是您的首选工具。

关于hadoop - 每天处理 10 B 行数据以创建变量(计算列)的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47232535/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com