- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试在 Spark 服务器上运行 SparklyR 库中的机器学习算法。
在实践中,我在一个非常小的数据集 (72 x 100) 上测试 ml_decision_tree。我首先从 R 中的 CSV 文件(read.csv)在本地读取原始数据集(72 x 7350),执行 reshape ,然后在 Spark 中加载结果(df_fin)(我直接在 Spark 所在的集群上运行代码)已安装):
df_tbl <- sdf_copy_to(sc,df_fin)
我可以在服务器 UI 中看到我新创建的 RDD;其“内存中的大小”为 49.9 KB,“磁盘上的大小”为空。关于堆内存使用情况,我可以看到:49.9 KB(剩余 2004.6 MB)。
然后,我的应用程序卡在运行 ml_decision_tree 上。我的控制台中没有错误消息,我的应用程序状态为“正在运行”,并且以下内容仍然写入我的工作日志中:
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Getting 0 non-empty blocks out of 200 blocks
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Started 0 remote fetches in 0 ms
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Getting 26 non-empty blocks out of 200 blocks
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Started 1 remote fetches in 1 ms
17/08/23 15:35:32 INFO Executor: Finished task 1.0 in stage 494.0 (TID 39532). 3082 bytes result sent to driver
17/08/23 15:35:32 INFO Executor: Finished task 0.0 in stage 494.0 (TID 39531). 4073 bytes result sent to driver ...
然后 35 分钟后,在控制台:“*‘na.omit’调用没有删除任何行”这意味着事情正在向前发展..
所以它仍然在做一些事情,但我不明白是什么。当我在自己的计算机上的 RShiny 中本地运行相同的代码时,过程很快完成(3 或 4 分钟)。最后,我的过程在 +/- 50 分钟后结束,并出现以下错误:
Error: java.lang.OutOfMemoryError: GC overhead limit exceeded
我猜这个 Java 错误来自垃圾收集器,它使用了我的大部分 CPU 资源,没有大量可用内存......但是它来自哪里?
我想我在 Spark 理解中遗漏了一些东西;通常 Spark 应该加快进程,但就我而言这是最糟糕的。我无法想象以这种方式处理巨大的数据集。
此外,我想在 Spark 中加载我的原始数据帧(72 x 7350)以对其执行机器学习(当我的缓慢问题确实得到解决时......)。
最好的方法是什么?使用spark_read_csv?我不使用 HDFS。我认为我不会有足够的数据来利用 Hadoop 的能力(一些 Tb,而不是更多)。
当我尝试加载原始数据框时,出现此错误:
Caused by: org.codehaus.janino.JaninoRuntimeException: Constant pool for class org.apache.spark.sql.catalyst.expressions.GeneratedClass$SpecificUnsafeProjection has grown past JVM limit of 0xFFFF
我在 SPARK-18016 JIRA 上看到比
"We fixed a problem for the large number (e.g. 4000) of columns. However, we know that we have not solved a problem for the very large number (e.g. 12000) of columns."
我不太明白。 Spark 是为大数据而设计的,为什么它会失败(在我的例子中)7350 colmuns ?
有人可以指导我解决这个问题吗?它来 self 的设置吗?我应该添加更多 worker 吗?
非常感谢!
最佳答案
I do not really understand. Spark has been designed for Big Data, why should it fail with (in my case) 7350 colmuns ?
并非所有“大数据”都是平等的,并且根据数据的形状(宽、长、两者)做出不同的设计选择。大多数时候系统都关注又长又薄的数据集。 Spark 就是这种情况。
这里的问题不是数据量而是优化器的复杂性。在 Spark ML 中,这不是一个大问题,因为 Spark 使用 Vector 类型来组合功能,如果这还不够,则始终可以使用低级 API。 sparklyr
然而,不幸地决定扩展转换后的功能 - 这是无法正常工作的。
72 x 7350
使用 Spark 处理这样的数据是没有意义的。如果你可以运行:
df_tbl <- sdf_copy_to(sc,df_fin)
这意味着数据适合内存,不需要分布式处理。
关于performance - Spark独立: SparklyR : Performance issues,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45841895/
我如何使用 CQLINQ 获取当前方法的输入参数集合?有像“参数”或“参数”这样的集合,只有“NbParamenter”不适合我的目的。 最佳答案 事实上,CQLinq 还没有这个功能。但是,在许多情
我想知道是否有人知道我的 makefile 中独立的 @ 符号和“dir”命令在这里(第二行和第三行)的作用: $(BUILD)/%.o: %.cpp @mkdir -p $(dir $@)
我想知道是否有人知道我的 makefile 中独立的 @ 符号和“dir”命令在这里(第二行和第三行)的作用: $(BUILD)/%.o: %.cpp @mkdir -p $(dir $@)
我的机器上有带有 4 个 cpu 的 Ubuntu 14.04(nproc 恢复了 4 个)。我安装并执行 Spark Standalone 后(本地),我可以自己定义不同数量的奴隶。例如我想要有4个
我看到所有这些 iPhone 应用程序都带有内置的独立 webDav 服务器。是否有可以集成到现有应用程序中的独立(如在其自己的 IIS 中)C# webDAV 项目。 最佳答案 至少有两个用于 .N
我如何在独立的 Django 应用程序上进行迁移(即不属于任何项目的应用程序)。 例如在以下之后:https://docs.djangoproject.com/en/1.8/intro/reusabl
我目前正在使用 tortoiseSVN 对本地编程文件进行版本控制。我不运行 SVN 服务器,因为可以直接使用 tortoiseSVN(例如 http://invalidlogic.com/2006/
我有一些 Bootstrap 代码,当用户查看它时,它可以很好地为进度条部分设置动画。 然而它动画 全部 页面中的进度条而不是动画仅限 该查看部分中的进度条。结果,当用户转到进度条的另一部分时,这些已
我认为我们在 iOS 13.2/13.3 中发现了关于在独立模式下运行的 PWA 的回归。 由于在 iOS PWA 上无法访问 getUserMedia() 我们依赖 capture HTML5 输入
我有一个每周从系统运行一次的报告,并将数据导出到 Excel 文档中。我已经设置了将数据导出到 Excel 的工具,以便在格式化方面做得很好,但是一旦数据进入 Excel,我还需要做更多的事情。 是否
//值数组的格式为 { "var1", "val1", "var2", "val2",.. } public static String replaceMethod(String template,
当我在 eclipse 中运行我的项目时,它工作正常,当我将它导出为独立 jar 时,它会滞后。我使用相同的 vmargs,在 Eclipse 中尝试了 3 种不同的导出设置,似乎没有任何帮助 最佳答
我了解到 Java EE 中我非常喜欢的注释基础配置(@Resource)功能。然后我注意到注释实际上是 Java SE 的一部分。 所以我想知道是否可以将它与 Java SE 一起使用。我当然可以在
我无法理解为什么这种关系没有被持久化,并且程序不会正常退出,但在 Eclipse 中继续运行。 下面是我的代码,排除了包名: 主要: import java.io.BufferedInputStrea
我有一个在 Linux + Java 6 上运行的独立 Java 应用程序,它似乎被卡住了(没有生成日志)我如何在不使用任何其他工具(例如 jstack)的情况下获取此线程转储 尝试了以下命令,但它们
我正在非节点环境中构建应用程序,但我想利用 Babel 的 ES6 转译,以便我可以编写更好的代码并且仍然支持 IE11。 所以我继续包含在这里找到的独立文件: https://github.com/
扩展我对 MySQL 的理解。 1) 是否需要 64 位帮助?我是安装还是单独使用? 2) 如果我打算在 MySQL Community Service 中使用 64 位,它会影响仅提供 32 位的
我有一个独立的 Java 应用程序,我必须为其集成一个规则引擎。我应该使用属性文件或 XML 文件定义规则。我需要规则引擎来读取属性或 XML 文件中定义的这些规则,并相应地在应用程序中实现代码。 任
我是wiremock新手,我正在尝试使用它来记录我负责集成测试的java应用程序的请求和响应。 我知道我的命令将类似于: java -jar wiremock-1.57-standalone.jar
我到处寻找我的问题的解决方案,但我的问题有点具体...我需要有关如何创建独立 radioGroup 列表的建议,例如图示: o item1 • item1' • item2 或 item2' o it
我是一名优秀的程序员,十分优秀!