gpt4 book ai didi

email - SGE 集群 qsub 电子邮件通知不起作用

转载 作者:行者123 更新时间:2023-12-03 16:11:11 29 4
gpt4 key购买 nike

我正在处理 SGE 集群,但在使用 qsub 电子邮件通知系统时遇到了一些问题。我的所有工作都运行良好,但我似乎无法修改默认行为以仅在中止工作时通知。 -M 标志工作正常,当作业中止时我会收到一封电子邮件,但是我想在作业开始、结束、中止或暂停时收到一封电子邮件。我在我的脚本中使用了以下标志(以及更多),我错过了什么愚蠢的东西吗?

#!/bin/bash
#$ -S /bin/bash
#$ -M email@server
#$ -m beas

program

当我尝试以下操作时它也不起作用:
qsub -M email@server -m baes script.sh

这是我应该与我的集群系统管理员一起解决的问题,还是我做错了什么?

谢谢你的帮助。

最佳答案

在解决此问题时要了解的重要一点是,您的作业状态电子邮件将由运行作业的节点发送。例如,我有一个具有以下输出的测试作业:

#!/bin/bash
#
#$ -N MAIL
#$ -j y
#$ -m easb
#$ -M pkenyon

hostname

现在,运行作业,看看它跑到哪里去了。
[pkenyon@head ~]$ qsub mail.sh
Your job 346 ("MAIL") has been submitted
[pkenyon@head ~]$ cat MAIL.o346
node03.cluster

如果您查看系统上的邮件日志,您将看到进行的投递尝试。你必须从那里诊断。以下是一些失败的例子(甚至是没有按照您希望的方式成功的成功):
  • 发送到计算节点地址,使用-M pkenyon
    ...
    Jun 5 13:56:00 node04 postfix/local[13141]: 14A3E143320: to=<pkenyon@node04.cluster>, orig_to=<pkenyon>, relay=local, delay=0.05, delays=0.03/0/0/0.01, dsn=2.0.0, status=sent (delivered to mailbox)
    ...
  • 头节点MX设置不正确,使用-M pkenyon@head.cluster
    ...
    Jun 5 14:00:30 node04 postfix/smtp[13283]: 35CC4143320: to=<pkenyon@head.cluster>, relay=none, delay=0.36, delays=0.17/0/0.19/0, dsn=5.4.4, status=bounced (Host or domain name not found. Name service error for name=head.cluster type=AAAA: Host not found)
    ...
  • 如果使用 -M someone@gmail.com,您需要将系统设置为使用本地邮件中继。
    ...
    Jun 5 12:20:47 node04 postfix/smtp[12798]: 1EEA5143320: to=<someone@gmail.com>, relay=ASPMX.L.GOOGLE.com[64.233.168.27]:25, delay=0.64, delays=0.04/0/0.59/0.02, dsn=5.0.0, status=bounced (host ASPMX.L.GOOGLE.com[64.233.168.27] said: 550 Relay not permitted (in reply to RCPT TO command))
    ...

  • 所以是的,您需要与您的集群系统管理员交谈,但这些是找出您的 SGE 电子邮件挂断位置的第一步。提供更多信息,您的管理员将能够修复配置问题并帮助您从集群环境中获得更多 yield 。

    关于email - SGE 集群 qsub 电子邮件通知不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27154055/

    29 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com