gpt4 book ai didi

hadoop - Spark : Silently execute sc. wholeTextFiles

转载 作者:可可西里 更新时间:2023-11-01 15:34:23 25 4
gpt4 key购买 nike

我正在使用 input = sc.wholeTextFiles(hdfs://path/*) 在 Spark 中加载大约 200k 个文本文件然后我运行 println(input.count)事实证明,我的 spark shell 输出了大量文本(这是每个文件的路径),过了一会儿它就挂起而没有返回我的结果。

我相信这可能是由于 wholeTextFiles 输出的文本量所致。你知道有什么方法可以静默运行这个命令吗?还是有更好的解决方法?

谢谢!

最佳答案

您的文件有多大?来自 wholeTextFiles API :

Small files are preferred, large files are also allowable, but may cause bad performance.

conf/log4j.properties 中,您可以抑制过多的日志记录,如下所示:

# Set everything to be logged to the console
log4j.rootCategory=ERROR, console

这样,您将只返回 resrepl,就像在 Scala(语言)repl 中一样。

以下是您可以使用的所有其他日志级别:log4j API .

关于hadoop - Spark : Silently execute sc. wholeTextFiles,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27839454/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com