- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试在 Spark 服务器上运行 SparklyR 库中的机器学习算法。
在实践中,我在一个非常小的数据集 (72 x 100) 上测试 ml_decision_tree。我首先从 R 中的 CSV 文件(read.csv)在本地读取原始数据集(72 x 7350),执行 reshape ,然后在 Spark 中加载结果(df_fin)(我直接在 Spark 所在的集群上运行代码)已安装):
df_tbl <- sdf_copy_to(sc,df_fin)
我可以在服务器 UI 中看到我新创建的 RDD;其“内存中的大小”为 49.9 KB,“磁盘上的大小”为空。关于堆内存使用情况,我可以看到:49.9 KB(剩余 2004.6 MB)。
然后,我的应用程序卡在运行 ml_decision_tree 上。我的控制台中没有错误消息,我的应用程序状态为“正在运行”,并且以下内容仍然写入我的工作日志中:
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Getting 0 non-empty blocks out of 200 blocks
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Started 0 remote fetches in 0 ms
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Getting 26 non-empty blocks out of 200 blocks
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Started 1 remote fetches in 1 ms
17/08/23 15:35:32 INFO Executor: Finished task 1.0 in stage 494.0 (TID 39532). 3082 bytes result sent to driver
17/08/23 15:35:32 INFO Executor: Finished task 0.0 in stage 494.0 (TID 39531). 4073 bytes result sent to driver ...
然后 35 分钟后,在控制台:“*‘na.omit’调用没有删除任何行”这意味着事情正在向前发展..
所以它仍然在做一些事情,但我不明白是什么。当我在自己的计算机上的 RShiny 中本地运行相同的代码时,过程很快完成(3 或 4 分钟)。最后,我的过程在 +/- 50 分钟后结束,并出现以下错误:
Error: java.lang.OutOfMemoryError: GC overhead limit exceeded
我猜这个 Java 错误来自垃圾收集器,它使用了我的大部分 CPU 资源,没有大量可用内存......但是它来自哪里?
我想我在 Spark 理解中遗漏了一些东西;通常 Spark 应该加快进程,但就我而言这是最糟糕的。我无法想象以这种方式处理巨大的数据集。
此外,我想在 Spark 中加载我的原始数据帧(72 x 7350)以对其执行机器学习(当我的缓慢问题确实得到解决时......)。
最好的方法是什么?使用spark_read_csv?我不使用 HDFS。我认为我不会有足够的数据来利用 Hadoop 的能力(一些 Tb,而不是更多)。
当我尝试加载原始数据框时,出现此错误:
Caused by: org.codehaus.janino.JaninoRuntimeException: Constant pool for class org.apache.spark.sql.catalyst.expressions.GeneratedClass$SpecificUnsafeProjection has grown past JVM limit of 0xFFFF
我在 SPARK-18016 JIRA 上看到比
"We fixed a problem for the large number (e.g. 4000) of columns. However, we know that we have not solved a problem for the very large number (e.g. 12000) of columns."
我不太明白。 Spark 是为大数据而设计的,为什么它会失败(在我的例子中)7350 colmuns ?
有人可以指导我解决这个问题吗?它来 self 的设置吗?我应该添加更多 worker 吗?
非常感谢!
最佳答案
I do not really understand. Spark has been designed for Big Data, why should it fail with (in my case) 7350 colmuns ?
并非所有“大数据”都是平等的,并且根据数据的形状(宽、长、两者)做出不同的设计选择。大多数时候系统都关注又长又薄的数据集。 Spark 就是这种情况。
这里的问题不是数据量而是优化器的复杂性。在 Spark ML 中,这不是一个大问题,因为 Spark 使用 Vector 类型来组合功能,如果这还不够,则始终可以使用低级 API。 sparklyr
然而,不幸地决定扩展转换后的功能 - 这是无法正常工作的。
72 x 7350
使用 Spark 处理这样的数据是没有意义的。如果你可以运行:
df_tbl <- sdf_copy_to(sc,df_fin)
这意味着数据适合内存,不需要分布式处理。
关于performance - Spark独立: SparklyR : Performance issues,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45841895/
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 8年前关闭。 Improve t
暂时忘记能力的定义,只关注能力的“检查”(使用“授权!”),我看到 CanCan 添加了大约 400 毫秒,用于简单地检查用户是否具有特定的能力主题/模型。 这是预期的吗(我假设不是)?或者,有没有可
我正在阅读有关 Swift 的教程 ( http://www.raywenderlich.com/74438/swift-tutorial-a-quick-start ),它预定义为不显式设置类型,因
这主要是由于对 SQL 问题的回答。由于性能原因,有意省略了 UDF 和子查询。我没有包括可靠性并不是说它应该被视为理所当然,但代码必须工作。 性能永远是第一位的吗?提供了许多以性能为主要优先事项的答
我已经编写了一个简单的测试平台来测量三种阶乘实现的性能:基于循环的,非尾递归的和尾递归的。 Surprisingly to me the worst performant was the loop o
我已将 ui-performance 插件应用到我的应用程序中。不幸的是,在开发模式下运行应用程序时它似乎不起作用。例如,我的 javascript 导入是用“vnull”版本呈现的。 例如 不会
我有一个我操作的 F# 引用(我在各处添加对象池以回收经常创建和删除的短期对象)。我想运行结果报价;现在我使用了 F# PowerPack,它提供了将引用转换为表达式树和委托(delegate)的方法
我正在尝试在 Spark 服务器上运行 SparklyR 库中的机器学习算法。 1 个簇 8 核 24G内存 Ubuntu 16.04 星火2.2 独立配置 1名师傅/2名 worker 每个执行器的
我有一个数据库(准确地说是在 postgres 上运行),具有以下结构: user1 (schema) | - cars (table) - airplanes (table, again) .
我的应用程序在我的 iPad 上运行。但它的表现非常糟糕——我的速度低于 15fps。谁能帮我优化一下? 它基本上是一个轮子(派生自 UIView),包含 12 个按钮(派生自 UIControl)。
在完成“Scala 中的函数式编程原则”@coursera 类(class)第 3 周的作业时,我发现当我实现视频类(class)中所示的函数联合时: override def union(tha
我正在重构我的一个 Controller 以使其成为一项服务,我想知道不将整个服务容器注入(inject)我的 Controller 是否会对性能产生影响。 这样效率更高吗: innova.path.
我有一个要显示的内容很大的文件。例如在显示用户配置文件时, 中的每个 EL 表达式需要一个 userId 作为 bean 的参数,该参数取自 session 上下文。我在 xhtml 文件中将这个 u
我非常了解 mipmapping。我不明白(在硬件/驱动程序级别)是 mipmapping 如何提高应用程序的性能(至少这是经常声称的)。在执行片段着色器之前,驱动程序不知道要访问哪个 mipmap
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: What's the (hidden) cost of lazy val? (Scala) Scala 允许定义惰
一些文章建议现在 build() 包含在 perform() 本身中,而其他人则建议当要链接多个操作时使用 build().perform()一起。 最佳答案 build() 包含在 perform(
Postgres docs说 For best optimization results, you should label your functions with the strictest vol
阅读Zero-cost abstractions看着 Introduction to rust: a low-level language with high-level abstractions我尝
我想在 MQ 服务器上部署 SSL,但我想知道我当前的 CPU 容量是否支持 SSL。 (我没有预算增加 CPU 内核和 MQ PVU 的数量) 我的规范: Windows 2003 服务器 SP2,
因此,我在 Chrome 开发者工具 的性能 选项卡内的时间 部分成功地监控了我的 React Native 应用程序的性能。 突然在应用程序的特定重新加载时,Timings 标签丢失。 我已尝试重置
我是一名优秀的程序员,十分优秀!