gpt4 book ai didi

java - Hadoop MapReduce : Read a file and use it as input to filter other files

转载 作者:可可西里 更新时间:2023-11-01 14:47:44 24 4
gpt4 key购买 nike

我想编写一个 hadoop 应用程序,它将一个文件和一个包含多个文件的输入文件夹作为输入。单个文件包含需要从文件夹中的其他文件中选择和提取其记录的 key 。我怎样才能做到这一点?

顺便说一句,我有一个正在运行的 hadoop mapreduce 应用程序,它将文件夹路径作为输入,进行处理并将结果写到不同的文件夹中。

我对如何使用文件获取需要从特定目录中的其他文件中选择和提取的 key 感到困惑。包含 key 的文件是一个大文件,因此不能直接放入主存中。我该怎么做?

谢谢!

最佳答案

如果键的数量太多而无法放入内存,则考虑将键集加载到布隆过滤器(大小合适以产生较低的误报率),然后处理文件,检查每个键的成员资格布隆过滤器(Hadoop 自带一个 BloomFilter 类,查看 Javadocs)。

您还需要执行第二个 MR 作业来进行最终验证(很可能在 reduce 侧连接中)以消除第一个作业的误报输出。

关于java - Hadoop MapReduce : Read a file and use it as input to filter other files,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11096771/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com