gpt4 book ai didi

hadoop - Hadoop Mapfile多个索引

转载 作者:行者123 更新时间:2023-12-02 21:45:45 26 4
gpt4 key购买 nike

具有以下数据集输入格式:TextA TextB

是否可以使用单个hadoop MapFile在第一列(TextA)和第二列(TextB)上提供索引(二进制搜索支持)?

想法是拥有相同的数据文件夹,但具有不同的索引文件。

最佳答案

您不能,数据文件必须按键排序。

如果您尝试可视化MapFile的实现方式,则会发现它无法正常工作:

  • 大数据文件按
  • 键排序
  • 包含N个键的索引文件正在加载到内存中
  • 执行get时,将在索引文件中找到两个相邻的键。然后在大型数据文件中进行二进制搜索(这就是为什么必须按键对它进行排序的原因)

  • 一个文件如何满足排序要求?

    关于hadoop - Hadoop Mapfile多个索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25447786/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com