gpt4 book ai didi

java - 使用 Hive 清理大数据

转载 作者:可可西里 更新时间:2023-11-01 16:26:44 28 4
gpt4 key购买 nike

我正在使用 Hive 查询我拥有的数据。问题是,这些数据需要清理,而且它太大了,我无法尝试在我的计算机上处​​理它(因此使用 Hadoop 和 Hive)。我有办法用 Hive 做到这一点吗?我查看了用户定义的函数,但我的理解是它们逐行运行,因此可能不是清理数据的最佳方式。

谢谢

最佳答案

您应该使用 MapReduce 程序清理数据。可能甚至不使用会提高性能的 reducer 。

MapReduce 程序的工作方式类似于缓冲文件读取器,一次读取一行数据。你可以对每一行进行你的清洗操作,然后插入到一个hive表中进行查询。

关于java - 使用 Hive 清理大数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17667171/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com