- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个简单的任务。我有一堆文件 (总共 ~100GB)
,每一行代表一个实体。我必须将此实体发送到 JanusGraph 服务器。
2018-07-07_05_10_46-8497016571919684639 <- job id
一段时间后,我遇到 OOM,日志显示 Java 被终止。
从数据流 View ,我可以看到以下日志:
工作流程失败。原因:S01:TextIO.Read/Read+ParDo(Anonymous)+ParDo(JanusVertexConsumer) failed., 一个work item尝试了4次都没有成功。每次工作人员最终与服务失去联系。尝试了工作项:
从 stackdriver View ,我可以看到:https://www.dropbox.com/s/zvny7qwhl7hbwyw/Screenshot%202018-07-08%2010.05.33.png?dl=0
日志说:
更多信息:https://pastebin.com/raw/MftBwUxs
E Out of memory: Kill process 1180 (java) 分数 1100 or sacrific child
E 终止进程 1180 (java) total-vm:4838044kB, anon-rss:383132kB, file-rss:0kB
我如何调试正在发生的事情?
最佳答案
目前调试问题的信息太少,因此我提供有关 Dataflow 的一般信息。
name
感兴趣的 -> 右上角(错误 + 日志)。 如果您无法解决问题,请使用错误信息更新帖子。
更新
根据超出截止日期错误和您分享的信息,我认为您的工作因内存耗尽而“洗牌”。根据this guide :
Consider one of, or a combination of, the following courses of action:
- Add more workers. Try setting --numWorkers with a higher value when you run your pipeline.
- Increase the size of the attached disk for workers. Try setting --diskSizeGb with a higher value when you run your pipeline.
- Use an SSD-backed persistent disk. Try setting --workerDiskType="compute.googleapis.com/projects//zones//diskTypes/pd-ssd" when you run your pipeline.
更新 2
对于特定的 OOM 错误,您可以使用:
--saveHeapDumpsToGcsPath=gs://<path_to_a_gcs_bucket>
将导致堆转储在下次 worker 重启时上传到配置的 GCS 路径。这使得下载转储文件以供检查变得容易。确保运行该作业的帐户对存储桶具有写入权限。请注意,堆转储支持会产生一些开销成本,并且转储可能非常大。这些标志应仅用于调试目的,并且始终在生产作业中禁用。
在 DataflowPipelineDebugOptions methods 上查找其他引用资料.
更新 3
我没有找到关于此的公共(public)文档,但我测试了 Dataflow 缩放 heap JVM size
使用机器类型( workerMachineType
),这也可以解决您的问题。我在 GCP 支持部门工作,因此我提交了两个文档请求(一个用于描述页面,另一个用于数据流故障排除页面)以更新文档以介绍此信息。
另一方面,有this related feature request你可能会觉得有用。为其加注星标以使其更显眼。
关于java - 如何检查为什么作业在 Google Dataflow 上被杀死(可能 OOM),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51224805/
这里就涉及到一个问题,到底Kill掉谁呢?一般稍微了解一些Linux内核的同学第一反应是谁用的最多,就Kill掉谁。这当然是Linux内核首先考虑的一种重要因素,但是也不完全是这样的,我们查一些Li
这个问题在这里已经有了答案: Set a JVM to dump heap when OutOfMemoryError is thrown (2 个答案) 关闭 5 年前。 我是JAVA新手。我在用
我们正在使用 Fitnesse 对复杂的基于 Web 的应用程序进行验收测试。全套流程需要几个小时才能通过,因此我们使用多个流程。设置如下: maven fork Fitnesse 服务器进程 mav
我正在Tensorflow的LSTM-RNN上训练一些音乐数据,并且遇到了我不明白的一些GPU内存分配问题:当实际上似乎还有足够的VRAM可用时,我遇到了OOM。 一些背景: 我正在使用6GB的GTX
我正在使用 tf 运行 seq2seq 模型,当使用 tf.train.Saver 从检查点文件加载参数时,推理程序运行良好。但是在使用 freeze_graph.py(使用 tf.framework
我有一个问题需要用 JS 中的某种继承来解决。 我设置了一个小的 jsfiddle 来解释,看: V1 http://jsfiddle.net/FFTj4/5/ function Vehicule(n
这里是 JS 的新手,所以如果我遗漏了一些明显的东西,我深表歉意。尝试构建一个随机数生成器(它以嵌套方式工作,所以有点像随机数元组列表),但我收到此代码的 OOM 错误。 (比如,如果我尝试做类似 g
我有一个需要显示全屏图像的应用程序,我从可绘制文件夹中获取图像,它们大约为 150-250 kb,但它仍然崩溃并出现 OutOfMemory 错误。当然不是第一张图片,但每次用户启动应用程序时我都会加
我正在使用 spark 从 postgres 表中读取并将其作为 json 转储到 Google 云存储。该表很大,有数百个 GB。该代码相对简单(请参见下文)但因 OOM 而失败。似乎 spark
即使系统中有足够的内存并且正确提供了所有必需的内存设置,Tomcat 仍无法启动并出现 OOM。这种情况并没有持续发生,证明 tomact 配置没有问题。 15-Jan-2019 20:17:31.0
我在高负载多线程Java项目中遇到OOM异常问题。 我很感激你能给我任何帮助。 德莱尔斯: 项目是建立在Java+Mysql作为存储。 没有证据表明在应用程序崩溃时会使用额外的RAM(任何监控工具都不
我使用 Android P-OS。内核版本为msm-4.14 自启动以来,oom 被调用并终止进程。不过内存还是很丰富的。我的内存大小是8GByte,Swap是1GByte。我什至没有使用交换。 [
所有的一切, 我正在使用 openjdk 1.8.0_212-b04、Tomcat 8.0.21 和 Red Hat 6.4。 并且我已经调整了测试web应用程序,确保重新部署后不会有没有这样的消息:
所以我在 Crashlytics 中看到我们有很多崩溃是由位图的 OOM 引起的。似乎其中 60% 来自 6.0.1 上的 Galaxy S7 Edge 设备。我们拥有的是一个包含 2 个图像的着陆屏
最近我们在 Docker 容器中遇到了 Ruby 的问题。尽管负载非常低,但应用程序往往会消耗大量内存,并且在提到的一段时间后会出现 OOM。 经过一番调查,我们将问题缩小到单线 docker run
Snakemake 工作流可以在任何类型的失败后重新尝试每次重启,包括如果错误是内存不足(OOM),例如 def get_mem_mb(wildcards, attempt): return
我有一个有趣的问题。我想我发现了一个无限请求循环,它导致我的 istio-proxy 在特定情况下因 OOM 错误而崩溃。 当我直接从应用程序容器内部将请求本地提交到应用程序时,它似乎工作正常,并且在
我使用的是 ActiveMQ 5.2,我的应用程序需要大量主题,大约 500,000 个。当我运行我的应用程序时,仅创建大约 1000 个主题后,ActiveMQ 会抛出 OutOfMemoryExc
我在 k8s 运算符上部署了一个结构化流作业,它只是从 kafka 读取数据,反序列化,添加 2 列并将结果存储在数据湖中(尝试了 delta 和 parquet),几天后执行程序增加了内存,最终我得
我的Mac上的Minikube中有一个本地Kubernetes集群。我将Minio独立服务器部署为具有指定资源限制的单个容器。当我上载大于容器内存限制的文件时,容器因OOMKilled原因终止。在Ub
我是一名优秀的程序员,十分优秀!