scala - 如果数据适合一台机器，使用 Spark 有意义吗？-6ren

scala - 如果数据适合一台机器，使用 Spark 有意义吗？

转载作者：行者123 更新时间：2023-12-04 17:09:41

26

4

我有 20GB 的数据需要处理，所有这些数据都适合我的本地机器。我计划使用 Spark 或 Scala 并行集合来针对这些数据实现一些算法和矩阵乘法。

由于数据适合一台机器，我应该使用 Scala 并行集合吗？

这是真的:并行任务的主要瓶颈是将数据送到 CPU 进行处理，因此由于所有数据都尽可能接近 CPU，因此 Spark 不会带来任何显着的性能改进吗？

即使 Spark 只在一台机器上运行，它也会有设置并行任务的开销，所以在这种情况下这个开销是多余的？

最佳答案

很难提供一些不明显的指令，比如如果你有数据并且没有达到 80% 的内存和......，然后使用本地模式。话虽如此，有几点，一般来说，即使您的数据适合机器内存，也可能使您使用 spark:

真正密集的 CPU 处理，在我的脑海中，它可能是复杂的文本解析

稳定性——假设您有许多处理阶段，并且一旦您的单台机器出现故障，您不想丢失结果。
如果您有重复计算，而不是一次性查询，这一点尤其重要(这样，您花在表上的时间可能会得到返回)

流——您以流的方式从某处获取数据，虽然它的快照适合单台机器，但您必须以某种方式对其进行编排

在您的特定情况下

so since all of the data is as close as can be to the CPU Spark will not give any significant performance improvement

当然不是，Spark 不是一种巫毒魔法，它可以使您的数据更接近 CPU，但它可以帮助您在机器之间进行扩展，从而在 CPU 之间进行扩展(第 1 点)

Spark will have the overhead setting up parallel tasks even though it will be just running on one machine, so this overhead is redundant in this case ?

我可能听起来很明显，但是

考虑#2 和#3，你需要它们吗？如果是的话，去 Spark 或其他东西

如果不是，请以愚蠢的方式执行您的处理(并行集合)

配置文件并查看。您的处理是否受 CPU 限制？你能加速它，而不需要很多调整吗？如果没有，那就去 Spark 。

为什么我应该使用 Spark? 的列表中还有 [厚脸皮] 点 4)。这是炒作——Spark 是一种非常性感的技术，它很容易“推销”给你的开发人员(它是大数据的前沿)和公司(你的老板，如果你正在开发自己的产品，你的客户)如果您正在为其他人构建产品)。

关于scala - 如果数据适合一台机器，使用 Spark 有意义吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23918037/

26

4

0

文章推荐： mysql - 如何在MySQL中将位掩码应用于整数？

文章推荐： azure - Azure 网站支持的最大域数

文章推荐： sql - TSQL BINARY_CHECKSUM 作为默认值

文章推荐： profiling - 完整的 Racket 代码配置指南

scala - Scala 可以在参数中允许自由类型参数吗(Scala 类型参数是一等公民吗？)？
我有一些 Scala 代码，它用两个不同版本的类型参数化函数做了一些漂亮的事情。我已经从我的应用程序中简化了很多，但最后我的代码充满了形式 w(f[Int],f[Double]) 的调用。哪里w()是
scala - Scala 脚本可以引用同一目录中其他未编译的 scala 代码吗？
如果我在同一目录中有两个单独的未编译的 scala 文件: // hello.scala object hello { def world() = println("hello world") }
scala - Spark Scala 获取类未找到 scala.Any
val schema = df.schema val x = df.flatMap(r => (0 until schema.length).map { idx => ((idx, r.g
scala - 错误 : scala: No 'scala-library*.jar' in Scala compiler library
环境: Play 2.3.0/Scala 2.11.1/IntelliJ 13.1 我使用 Typesafe Activator 1.2.1 用 Scala 2.11.1 创建一个新项目。项目创建好后
scala - 如何使我的 Scala jar 库中的类可以在 Scala 控制台和 Scala 脚本中访问？
我只是想知道如何使用我自己的类扩展 Scala 控制台和“脚本”运行程序，以便我可以通过使用实际的 Scala 语言与其通信来实际使用我的代码？我应将 jar 放在哪里，以便无需临时配置即可从每个 S
scala - ensime scala 错误(未找到类 scala.Array，未找到对象 scala)
我已经根据 README.md 文件安装了 ensime，但是，我在低级 ensime-server 缓冲区中出现以下错误: 信息: fatal error :scala.tools.nsc.Miss
scala - Scala 中的函数相等，是 Scala 中的函数对象吗？
我正在阅读《Scala 编程》一书。在书中，它说“一个函数文字被编译成一个类，当在运行时实例化时它是一个函数值”。并且它提到“函数值是对象，因此您可以根据需要将它们存储在变量中”。所以我尝试检查函数
scala - 如何在 Scala 原生应用程序中运行 Scala 测试？
我有 hello world scala native 应用程序，想对此应用程序运行小型 scala 测试我使用通常的测试命令，但它抛出异常: NativeMain.scala object Nati
scala - 从 Scala 编译器插件生成 Scala 代码树
有few resources在网络上，在编写与代码模式匹配的 Scala 编译器插件方面很有指导意义，但这些对生成代码(构建符号树)没有帮助。我应该从哪里开始弄清楚如何做到这一点？ (如果有比手动构建
scala - 使用仅适用于较旧 Scala 版本的 Scala 库
我是 Scala 的新手。但是，我用创建了一个中等大小的程序。斯卡拉 2.9.0 .现在我想使用一个仅适用于的开源库斯卡拉 2.7.7 . 是吗可能在我的 Scala 2.9.0 程序中使用这个
scala - Scala 酸洗是否适用于 Scala 2.11？
有没有办法在 Scala 2.11 中使用 scala-pickling？我在 sonatype 存储库中尝试了唯一的 scala-pickling_2.11 工件，但它似乎不起作用。我收到消息:
scala - 如何从 Scala 本身获取 Scala 版本？
这与命令行编译器选项无关。如何以编程方式获取代码内的 Scala 版本？或者，Eclipse Scala 插件 v2 在哪里存储 scalac 的路径？最佳答案这无需访问 scala-compi
scala - 避免 Scala 内存泄漏 - Scala 构造函数
我正在阅读《Scala 编程》一书，并在第 6 章中的类 Rational 实现中遇到了一些问题。这是我的 Rational 类的初始版本(基于本书) class Rational(numerato
scala - 是否有必要在新的 scala 项目中添加我的自定义 scala 库依赖项？
我是 Scala 新手，我正在尝试开发一个使用自定义库的小项目。我在库内创建了一个mysql连接池。这是我的库的build.sbt organization := "com.learn" name :
scala - 如何在编译 Scala 文件之前在 SBT Build.scala 中运行 Scala 代码？
我正在尝试运行一些 Scala 代码，只是暂时打印出“Hello”，但我希望在 SBT 项目中编译 Scala 代码之前运行 Scala 代码。我发现在 build.sbt 中有以下工作。 compi
scala - maven Scala 插件默认使用什么 Scala 版本？
Here链接到 maven Scala 插件使用。但没有提到它使用的究竟是什么 Scala 版本。我创建了具有以下配置的 Maven Scala 项目: org.scala-tools
scala - Scala 上的类型不匹配用于理解 : scala. concurrent.Future
我对 Scala 还很陌生，请多多包涵。我有一堆包裹在一个大数组中的 future 。 future 已经完成了查看几 TB 数据的辛勤工作，在我的应用程序结束时，我想总结上述 future 的所有结
scala - 带有 scala 宏的非 scala 源位置
我有一个 scala 宏，它依赖于通过包含其位置的静态字符串指定的任意 xml 文件。 def myMacro(path: String) = macro myMacroImpl def myMacr
scala - 缺少扩展函数的参数类型 (Scala)
这是我的功能: def sumOfSquaresOfOdd(in: Seq[Int]): Int = { in.filter(_%2==1).map(_*_).reduce(_+_) } 为什么我
scala - Scala 中两个时间戳之间的秒数差异
这个问题在这里已经有了答案: Calculating the difference between two Java date instances (45 个答案) 关闭 5 年前。所以我有一个这

首页

博学

6Ren·AI

商城

scala - 如果数据适合一台机器，使用 Spark 有意义吗？