apache-spark - 溢出到磁盘并随机写入 Spark-6ren

apache-spark - 溢出到磁盘并随机写入 Spark

转载作者：行者123 更新时间：2023-12-03 07:18:48

29

4

我对溢出到磁盘和随机写入感到困惑。使用默认的 Sort shuffle 管理器，我们使用 appendOnlyMap 来聚合和组合分区记录，对吧？然后，当执行内存填满时，我们开始对映射进行排序，将其溢出到磁盘，然后清理映射以进行下一次溢出(如果发生)，我的问题是:

溢出到磁盘和随机写入之间有什么区别？它们基本上包括在本地文件系统上创建文件并进行记录。
承认是不同的，因此 Spill 记录会被排序，因为它们是通过映射传递的，而不是随机排列写入记录，因为它们不是从映射传递的。
我认为溢出文件的总大小应该等于随机写入的大小，也许我遗漏了一些东西，请帮助理解该阶段。

谢谢。

乔治

最佳答案

溢出到磁盘和随机写入是两个不同的事情

溢出到磁盘 - 数据从主机 RAM 移动到主机磁盘 - 当计算机上没有足够的 RAM 时使用，并将部分 RAM 放入磁盘

http://spark.apache.org/faq.html

我的数据是否需要适合内存才能使用 Spark？

No. Spark's operators spill data to disk if it does not fit in memory, allowing it to run well on any sized data. Likewise, cached datasets that do not fit in memory are either spilled to disk or recomputed on the fly when needed, as determined by the RDD's storage level.

shuffle write - 数据从执行器移动到另一个执行器 - 当数据需要在执行器之间移动时使用(例如由于 JOIN、groupBy)等)

更多数据可以在这里找到:

一个可能有助于解决此问题的边缘案例示例:

您有 10 名执行人
每个执行器具有 100GB RAM
数据大小为1280MB，分为10个分区
每个执行器保存 128MB 的数据。

假设数据有一个key，执行groupByKey会将所有数据放入一个分区。 Shuffle 大小 将为 9*128MB(9 个执行器会将数据传输到最后一个执行器)，并且不会有任何溢出到磁盘，因为执行器有 100GB 的内存RAM 和仅 1GB 数据

关于AppendOnlyMap :

As written in the AppendOnlyMap code (see above) - this function is a low level implementation of a simple open hash table optimized for the append-only use case, where keys are never removed, but the value for each key may be changed.

两个不同的模块使用相同的低级函数这一事实并不意味着这些函数在高级中是相关的。

关于apache-spark - 溢出到磁盘并随机写入 Spark，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41661849/

29

4

0

文章推荐： ruby-on-rails - rails 3 : Validate combined values

文章推荐： apache-spark - 如何使用 groupBy 将行收集到 map 中？

文章推荐： scheme - 定义、让和设置之间的区别!

文章推荐： java - 坚持/提交在 Spring JPA JUnit 的测试环境中不起作用

java - 服务器启动后将Ehcache的缓存数据写入本地文件(磁盘)，重新启动时应从文件(磁盘)中获取数据
我在服务器启动时创建一个缓存(服务器启动每次都需要10分钟)。目前我正在使用内存缓存(Ehcache)。现在我想建立一个机制，以便一旦数据被缓存我应该能够在几秒钟内启动服务器。比如将缓存的持久副本写入
JSON 磁盘/内存大小比率
我编写 json 结构的方式使得文件(在进行了一个月的测量后)存储在磁盘上时仍然只有 100 MB 左右。但是现在文件大约是 20mb，但我看到我的脚本需要的内存大约是 200/300 mb。显然，脚
solaris挂载windows fat32 磁盘
Solaris9 x86下如何挂载和永久挂载windows fat32分区临时挂载Shell 命令; mout –F pcfs /dev/dsk/c1d0p0:c /mnt/c mount
azure - 磁盘 ID 中的资源组名称不区分大小写
磁盘ID中的资源组名称大小写不敏感。重现此问题的步骤 - 在 Azure 中创建独立磁盘，检查 ID。对于例如 -“/subscriptions/subscriptionID/resourceGrou
azure - 磁盘 UUID 在哪个命名空间中是唯一的？
我已将附加数据磁盘的备份还原到新虚拟机。当我发出命令 sudo blkid 时，我发现它与附加到原始虚拟机的数据磁盘具有相同的 UUID，因此我无需更改 fstab 即可在启动时挂载它。然而，它似乎是
assembly - 磁盘 IO 操作在内核级程序集中通常如何看待？
在用户态中，执行磁盘 IO 就像链接 C 库一样简单，或者，如果您喜欢冒险，可以直接执行系统调用。我想知道内核本身是如何执行 IO 的。换句话说，假设我在裸机上以特权模式运行应用程序。我将如何访问通
azure - 磁盘 UUID 在哪个命名空间中是唯一的？
我已将附加数据磁盘的备份还原到新虚拟机。当我发出命令 sudo blkid 时，我发现它与附加到原始虚拟机的数据磁盘具有相同的 UUID，因此我无需更改 fstab 即可在启动时挂载它。然而，它似乎是
laravel - 磁盘 [视频] 没有配置的驱动程序
我正在尝试使用 laravel 和 ffmpeg 创建缩略图。但是我收到了这个错误。磁盘 [视频] 没有配置驱动程序。我的代码 public function index() { FFMp
c++ - 如何像winhex一样直接读/写usb(磁盘)？
我的目标是读/写 usb。首先必须打开并读取 usb 低级别，如“程序” 我使用 visual c++ 和 winAPI 下面是我的测试代码 char path[64]; sprintf(path,
c - 磁盘 I/O 的内核缓冲区缓存何时为空？
内核缓冲区缓存何时为空？这似乎不是 LINE Buffering。如果我写 () 一个没有换行符的字符串，它会立即输出到文件。另外，socket文件的输入输出缓冲区是否也像Disk I/O一样使用内
linux - 使用命令加载 RAM 磁盘
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
linux - 磁盘 I/O 基准测试
我有一个大型调用中心，有 250 个并发调用。队列日志的队列应用程序平面文件。该系统使用 Asterisk 和 Queuemetrics。两个服务都在同一台服务器上运行。规范为 16 核和 64 GB
Centos 磁盘 LVM 扩展
我在使用安装了 Centos7 的 VMWare VM 时遇到问题。 lsblk 命令给出如下内容 df -h 给出这个我正在尝试将 root lvm 扩展到分区，但无论我如何尝试都无法做到这一点。
java - 磁盘 I/O 算法的运行时间
在基于内存的计算模型中，通过考虑数据结构，可以抽象地完成唯一需要进行的运行时计算。但是，关于高性能磁盘 I/O 算法的文档并不多。因此，我提出了以下一组问题: 1) 我们如何估计磁盘 I/O 操作的
windows - 如何以编程方式创建 RAM 磁盘？
我不是在寻找调用命令行实用程序的代码，它可以解决问题。我实际上很想知道用于创建 RAM 磁盘的 API。编辑动机:我有一个第三方库，它需要一个目录名，以便以某种方式处理该目录中的文件。我将这些文件
mysql 磁盘 I/O 100%
MySQL 数据库显示磁盘 I/O 利用率持续保持在 100% 左右。数据库服务器有 24 GB 内存。我们尝试优化查询，但效果不佳。请检查如下所示的当前配置参数: 参数当前值 key_buff
database - 组合缓存方法 - 基于内存缓存/磁盘
这是交易。我们本可以采用完全静态 html 的方式来解决性能问题，但由于该站点将是部分动态的，因此这对我们来说行不通。我们想到的是使用 memcache + eAccelerator 来加速 PHP
c# - 内存映射文件与 RAM 磁盘
对于游戏 Minecraft，运行服务器应用程序时的一般方法是在 RAMDisk 中运行它，因为它使用数百个小文件来生成世界，I/O 速度是主要瓶颈。在最近的尝试中，我尝试使用 Dokan/ImDi
c - 磁盘 I/O 期间幕后发生了什么？
当我查找文件中的某个位置并写入少量数据(20 字节)时，幕后发生了什么？我的理解据我所知，可以从磁盘写入或读取的最小数据单位是一个扇区(传统上是 512 字节，但该标准现在正在改变)。这意味着要写
go - 如何使用golang获取xen服务器内存、磁盘、网络和CPU信息？
如何使用golang获取xen服务器的内存、磁盘、网络和cpu信息？是否有任何可用的软件包？最佳答案与其他服务器有什么不同？如果没有 - 有一堆 Go 包可以做到这一点，我正在使用这个 - ht

首页

博学

6Ren·AI

商城

apache-spark - 溢出到磁盘并随机写入 Spark