gpt4 book ai didi

hadoop - Pig 通过一组键查找外部记录

转载 作者:可可西里 更新时间:2023-11-01 16:17:18 24 4
gpt4 key购买 nike

我在数据库系统中有一些数据,出于几个原因我无法使用 LOAD 语句提取这些数据。我需要 Pig 按键(标识符)查找此数据,但如果我实现 Java UDF,我担心一对一键查找的性能。基本上,如果我的关系有 10,000 个条目,我想以某种方式在 500 个键的集合中查找这些数据。 Pig 是否提供了一个接口(interface),允许我调用一个 java 方法,该方法将接受一组键并返回一组(包或映射)答案,这些答案可以连接或以某种方式分配给 Pig 关系中的元组?

预先感谢您的帮助!

最佳答案

一些建议:

  • 您能否编写您的 UDF 以期望在单个批处理中查询一袋标识符 - 那么您只需要编写 pig 将您的 10,000 个标识符分成多个批处理(袋 - 虽然我不是确保这是多么“简单”),然后是后续的 pig 代码以展平并重新加入 UDF 输出
  • 使用MAPREDUCE关键字,并在映射器实现中进行批量查询

关于hadoop - Pig 通过一组键查找外部记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17579165/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com