gpt4 book ai didi

hadoop - 如何处理 hadoop 集群上的 id 生成?

转载 作者:可可西里 更新时间:2023-11-01 14:50:36 25 4
gpt4 key购买 nike

我正在 hadoop 集群上构建字典,需要为每个标记生成一个 numeric id。我应该怎么做?

最佳答案

你有两个问题。首先,您要确保为每个 token 分配一个 id。为此,您应该按标记对记录进行排序和分组,并在 reducer 中进行分配。一旦你确定 reducer 方法只为每个标记调用一次,你就可以使用上下文中的分区号和由 reducer 维护的唯一数字 ID(每个分区一个实例) - 只需使用初始化为 1 的实例变量在 setup 方法中,并在 reduce 方法中递增。

关于hadoop - 如何处理 hadoop 集群上的 id 生成?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11737750/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com