gpt4 book ai didi

java - Hadoop MapReduce中更好的采样方式

转载 作者:行者123 更新时间:2023-12-02 21:46:51 25 4
gpt4 key购买 nike

我要从输入数据集中获取20%的样本数据。

我想到了两种方法:

  • 最初从每个映射器发出20%的数据(单个映射器发出20%的数据)。
    随机排序和排序后,reducer会找到20%的mapper数据。(对Map和Reduce使用相同的过程)
  • 只需从mapper发出每一行,然后在Reducer中从总数据中找到20%的样本数据。(仅完成处理是Reducer)

  • 哪种方法更好?

    最佳答案

    我绝对会选择您的第一选择。我不确定为什么您需要 reducer 。只需在 map 阶段过滤掉20%,然后将其命名为“一日”即可。

    关于java - Hadoop MapReduce中更好的采样方式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24417007/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com