gpt4 book ai didi

java - Cassandra setInputSplitSize 无法正常工作

转载 作者:行者123 更新时间:2023-12-01 15:45:52 24 4
gpt4 key购买 nike

我正在使用 Hadoop + Cassandra。我使用 setInputSplitSize(1000) 来不重载映射器(并接收堆内存不足),默认为 64K。我总共只有 2M 行需要处理。实际上每个 split 应该约为 1000 行。

问题是一些映射器仍然收到 64K 行,但我不知道为什么。通常有 2-3 个映射器的状态为 4000% 64000%,而不仅仅是 100%。当我检查日志时,我发现处理了 40K-64K 行。它没有崩溃或内存不足,但是这 2-3 个任务在处理过程中开始,并在所有其他任务完成后持续 2-3 小时。

这是正常行为吗?我该怎么做才能使拆分尺寸变得固定?

提前谢谢您!

最佳答案

您使用的 Cassandra 版本是什么?如果不是 0.7.8 或 0.8.4,请先尝试升级。

如果您仍然看到此行为,请在 https://issues.apache.org/jira/browse/CASSANDRA 上创建错误报告.

关于java - Cassandra setInputSplitSize 无法正常工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7022860/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com