- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在通过阅读数百万个 xml 文件
val xmls = sc.binaryFiles(xmlDir)
该操作在本地运行良好,但在 yarn 上运行失败:
client token: N/A
diagnostics: Application application_1433491939773_0012 failed 2 times due to ApplicationMaster for attempt appattempt_1433491939773_0012_000002 timed out. Failing the application.
ApplicationMaster host: N/A
ApplicationMaster RPC port: -1
queue: default
start time: 1433750951883
final status: FAILED
tracking URL: http://controller01:8088/cluster/app/application_1433491939773_0012
user: ariskk
Exception in thread "main" org.apache.spark.SparkException: Application finished with failed status
at org.apache.spark.deploy.yarn.Client.run(Client.scala:622)
at org.apache.spark.deploy.yarn.Client$.main(Client.scala:647)
at org.apache.spark.deploy.yarn.Client.main(Client.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:497)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:569)
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:166)
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:189)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:110)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
在 hadoops/userlogs 日志上,我经常收到这些消息:
15/06/08 09:15:38 WARN util.AkkaUtils: Error sending message [message = Heartbeat(1,[Lscala.Tuple2;@2b4f336b,BlockManagerId(1, controller01.stratified, 58510))] in 2 attempts
java.util.concurrent.TimeoutException: Futures timed out after [30 seconds]
at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:219)
at scala.concurrent.impl.Promise$DefaultPromise.result(Promise.scala:223)
at scala.concurrent.Await$$anonfun$result$1.apply(package.scala:107)
at scala.concurrent.BlockContext$DefaultBlockContext$.blockOn(BlockContext.scala:53)
at scala.concurrent.Await$.result(package.scala:107)
at org.apache.spark.util.AkkaUtils$.askWithReply(AkkaUtils.scala:195)
at org.apache.spark.executor.Executor$$anon$1.run(Executor.scala:427)
我通过 spark-submit 运行我的 spark 作业,它适用于另一个仅包含 37k 文件的 HDFS 目录。有什么解决办法吗?
最佳答案
好的,在 sparks 邮件列表上获得一些帮助后,我发现有 2 个问题:
src 目录,如果它以/my_dir/给出,它会使 spark 失败并产生心跳问题。相反,它应该作为 hdfs:///my_dir/*
修复#1 后,日志中出现内存不足错误。这是在由于文件数量而耗尽内存的 yarn 上运行的 spark 驱动程序(显然它将所有文件信息保存在内存中)。所以我使用 --conf spark.driver.memory=8g spark-submit'ed 作业解决了这个问题。
关于hadoop - spark 超时可能是由于 binaryFiles() 在 HDFS 中有超过 100 万个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30704814/
我正在用 JavaScript 修补一些 Windows 应用商店开发,但我似乎被困在如何从二进制文件中获取字节数组。我在网上找到了几个例子,但它们似乎都只读取文本,而我的文件是图像。我打开文件是这样
我目前正在研究 DOCSIS 的一些内部工作原理和相关。我有点挣扎的一件事是如何制作电缆调制解调器配置文件。 从我收集到的: CM 配置是基于 TLV 的二进制文件格式。 这些配置是使用 TFTP 服
在 ASCII STL 文件中包含多个实体已有详细描述。 solid name1 facet normal N.x N.y N.z outer loop
我关注 this answer 中的结果完全正确,但我收到以下错误: ReferenceError: BinaryFile is not defined 这是使用它的代码: fr.onloadend
sc = SparkContext("Local") rdd = sc.binaryFiles(Path to the binary file , minPartitions = 5).partiti
我正在寻找一种方法来加载和检查由 rustc 生成的 .rlib 二进制文件。我在标准库中四处寻找,但运气不佳。我的假设是 .rlib 包含静态类型检查程序所需的所有类型信息,这些程序“外部包装”它。
在我使用的移动网络浏览器中使用 input[type='file'] 捕获照片后,我尝试在 Canvas 中以正确的方向绘制照片: fileReader.onloadend = function()
我在同一个文件夹中的 hdfs 上有两个 zip 文件:/user/path-to-folder-with-zips/。 我将其传递给 pyspark 中的“二进制文件”: zips = sc.bin
我正在尝试从现有的 Perl 代码逆向工程一个 Julia 脚本,到目前为止一切顺利,但我现在必须在 Julia 中编写一堆二进制文件,这是我不熟悉的和。我想知道是否有人对该任务有任何经验,而且语法是
我偶然发现了我相当古老的照片对象磁盘,遗憾的是发现该公司 (hemera) 不再提供支持。这给我留下了一大堆 .hpi 文件。幸运的是,我找到了 this information关于提取文件的 jpg
打印作业到 CUPS 服务器时,您可以设置 cupsd.conf 参数 PreserveJobHistory和 PreserveJobFiles控制您要保留的作业数量。 CUPS 始终将实际打印作业文
我正在通过阅读数百万个 xml 文件 val xmls = sc.binaryFiles(xmlDir) 该操作在本地运行良好,但在 yarn 上运行失败: client token: N/A d
我是一名优秀的程序员,十分优秀!