gpt4 book ai didi

python - 使用python处理SPARK中较大尺寸的文档时出现尺寸问题

转载 作者:行者123 更新时间:2023-12-02 21:29:50 24 4
gpt4 key购买 nike

我已经使用python脚本使用SPARK处理存储在hdfs中的xml文档。

files = sc.wholeTextFiles("hdfs://xxx/data").collect()

/ data目录中有10,000多个xml文档。我必须使用SPARK处理所有文档。但是,当我尝试运行时,出现以下错误消息:
WARN TaskSetManager: Stage 0 contains a task of very large size (451 KB). The maximum recommended task size is 100 KB

如何纠正此错误。谁能帮我解决这个问题?

提前致谢。

最佳答案

我现在已经有了答案。我通过使用以下代码来最大化分区:files = sc.wholeTextFiles("hdfs://xxx/data",10).collect()

关于python - 使用python处理SPARK中较大尺寸的文档时出现尺寸问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34715541/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com