gpt4 book ai didi

join - 记录主动溢出到 Hadoop Pig 中?

转载 作者:可可西里 更新时间:2023-11-01 14:21:51 28 4
gpt4 key购买 nike

我是 Hadoop 的新手,对我的 pig 脚本中的命令行消息很好奇。

Total records written : 7676
Total bytes written : 341396
Spillable Memory Manager spill count : 103
Total bags proactively spilled: 39
Total records proactively spilled: 32389322

最终结果显示为“成功!”。我还是不确定。上面这些数字是什么意思?

谢谢。

最佳答案

前两个显示了您的 MR 作业写入 HDFS 的总记录数/字节数。
可能会发生,在 MR 作业期间,并非所有记录都适合内存。溢出计数器指示已将多少记录写入数据节点的本地磁盘以避免内存不足。

Pig 使用两种方法来控制内存使用并在必要时进行溢出:

1. Spillable Memory Manager :

这就像一个中心位置,用于注册易溢出的袋子。如果内存不足,则此管理器遍历已注册包的列表并执行 GC


2.主动( self )溢出:

如果达到内存限制,Bags 也会自行溢出(参见 pig.cachedbag.memusage)


回到你拥有的统计数据:

  • 主动溢出的袋子总数:已经溢出的袋子数量
  • 主动泄漏的记录总数:这些包中的记录数

检查工作的溢出统计数据总是好的,因为有很多溢出可能表明巨大的性能损失需要avoided .

关于join - 记录主动溢出到 Hadoop Pig 中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12378925/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com