gpt4 book ai didi

multithreading - Spark : driver logs showing “thread spilling sort data to disk”

转载 作者:行者123 更新时间:2023-12-03 13:03:11 24 4
gpt4 key购买 nike

有人可以帮助我了解Spark作业日志中以下几行的可能原因是什么。

2018-06-11T05:35:46,181 - INFO [Executor task launch worker for task 328:Logging$class@54] - TID 328 waiting for at least 1/2N of on-heap execution pool to be free 2018-06-11T05:35:46,182 - INFO [Executor task launch worker for task 329:UnsafeExternalSorter@202] - Thread 151 spilling sort data of 50.0 MB to disk (20 times so far)

2018-06-11T05:35:46,188 - INFO [Executor task launch worker for task 322:UnsafeExternalSorter@202] - Thread 176 spilling sort data of 33.0 MB to disk (27 times so far)



Spark程序的工作原理:
  • 查询数据库,缓存整个表(缓存2GB)
  • 从3个国家(丹麦,印度,新西兰)中依次选择国家/地区的记录
  • 将数据框分成500个片段,然后将其传递给map函数,该函数将在一个片段中创建一组记录的json并将其发送到搜索服务器
  • 映射被应用到并行collection(Vector)上以执行并行处理,我们可以并行发送到搜索服务器以进行索引。

  • 我是Spark的新手,因此请帮助我了解我应该阻止配置的哪一部分。 Spark版本是2.1.1

    最佳答案

  • 根据日志对数据进行排序。
  • 在排序期间,没有足够的内存来存储辅助数据结构以便在内存中进行随机播放。
  • 因此,Spark将数据泄漏到磁盘上。
  • 关于multithreading - Spark : driver logs showing “thread spilling sort data to disk” ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50794835/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com