gpt4 book ai didi

SGE 集群上的 Java 最大堆大小

转载 作者:行者123 更新时间:2023-11-28 22:49:15 25 4
gpt4 key购买 nike

我有一个用 python 编写的管道调用 Java 中的一些进程。管道以两种可能的模式运行,在本地模式(在单个节点上)或在 SGE 集群上。

当我将选项设置为集群模式时,日志中的错误消息是这样的

Invalid maximum heap size: -Xmx4g -jar
Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.

在本地模式下,没有错误,没有问题。

我的问题是什么会导致这样的错误?

我在本地或集群上运行作业的类如下

class LocalJobManager(JobManager):
def __init__(self):
self.cmd_strs = []

def add_job(self, cmd, cmd_args, **kwargs):
cmd_str = ' '.join([cmd, ] + [str(x) for x in cmd_args])

self.cmd_strs.append(cmd_str)

def run_job(self, cmd, cmd_args, **kwargs):
cmd_str = ' '.join([cmd, ] + [str(x) for x in cmd_args])

self._run_cmd(cmd_str)

def wait(self):
for cmd_str in self.cmd_strs:
self._run_cmd(cmd_str)

def _run_cmd(self, cmd_str):
'''
Throw exception if run command fails
'''
process = subprocess.Popen(cmd_str, stdin=subprocess.PIPE, shell=True)

process.stdin.close()

sts = os.waitpid(process.pid, 0)

if sts[1] != 0:
raise Exception('Failed to run {0}\n'.format(cmd_str))

class ClusterJobManager(JobManager):
def __init__(self, log_dir=None):
import drmaa

self._drmaa = drmaa

self.log_dir = log_dir

if self.log_dir is not None:
make_directory(self.log_dir)

self.session = self._drmaa.Session()

self.session.initialize()

self.job_ids = Queue()

self._lock = threading.Lock()

def add_job(self, cmd, cmd_args, mem=4, max_mem=10, num_cpus=1):
job_id = self._run_job(cmd, cmd_args, mem, max_mem, num_cpus)

self.job_ids.put(job_id)

def run_job(self, cmd, cmd_args, mem=4, max_mem=10, num_cpus=1):
job_id = self._run_job(cmd, cmd_args, mem, max_mem, num_cpus)

self._check_exit_status(job_id)

def wait(self):
self._lock.acquire()

job_ids = []

while not self.job_ids.empty():
job_ids.append(self.job_ids.get())

self.session.synchronize(job_ids, self._drmaa.Session.TIMEOUT_WAIT_FOREVER, False)

self._lock.release()

for job_id in job_ids:
self._check_exit_status(job_id)

def close(self):
self.session.control(self._drmaa.Session.JOB_IDS_SESSION_ALL, self._drmaa.JobControlAction.TERMINATE)

self.session.exit()

def _run_job(self, cmd, cmd_args, mem, max_mem, num_cpus):
job_template = self._init_job_template(cmd, cmd_args, mem, max_mem, num_cpus)

job_id = self.session.runJob(job_template)

self.session.deleteJobTemplate(job_template)

return job_id

def _init_job_template(self, cmd, cmd_args, mem, max_mem, num_cpus):
job_template = self.session.createJobTemplate()

job_template.remoteCommand = cmd

job_template.args = [str(x) for x in cmd_args]

job_template.workingDirectory = os.getcwd()

if self.log_dir is not None:
job_template.errorPath = ':' + self.log_dir

job_template.outputPath = ':' + self.log_dir

job_template.nativeSpecification = '-l mem_free={mem}G,mem_token={mem}G,h_vmem={max_mem}G -V -w n -pe ncpus {num_cpus}'.format(**locals())

return job_template

def _check_exit_status(self, job_id):
return_value = self.session.wait(job_id, self._drmaa.Session.TIMEOUT_WAIT_FOREVER)

if return_value.exitStatus != 0:
raise Exception('Job {0} failed with exit status {1}.'.format(return_value.jobId,
return_value.exitStatus))

通常 Could not create the Java Virtual Machine(正如我在一些论坛上阅读的那样)是由语法错误引起的,即使调用的命令是正确的并且在本地工作,除了在集群上运行作业的类如上所示,运行除 Java 之外的所有内容

谢谢

最佳答案

我在 SGE 上遇到过这个问题。您可能将默认的硬内存限制设置为 4GB 左右,而 Java 似乎使用了比您在初始化期间在 -Xmx4g 参数中设置的 4GB 多一点的内存。你能看到你的管理员是否设置了硬内存限制吗?通常,您将使用以下方法设置或覆盖默认限制:

qsub -l h_vmem=16G

尝试通过该参数提供比所需更多的内存,看看是否能解决问题,然后在不崩溃的情况下尽可能降低 h_vmem。

关于SGE 集群上的 Java 最大堆大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24066954/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com