c++ - SGE 中 SGI 机器上的 CPU 负载失控-6ren

c++ - SGE 中 SGI 机器上的 CPU 负载失控

转载作者：塔克拉玛干更新时间：2023-11-03 01:23:19

26

4

我们在 sgi uv 2000 (smp) 上运行 oge 2011.11 w 256 个超线程内核(128 个物理内核)。当我们在系统上运行 openmp 作业时，它运行良好。这是工作:

#include <iostream>
#include <cstring>
#include <cstdlib>
#include <math.h>
#include <omp.h>

using namespace std;

int main (
        int argc,
        char* argv[] ) {


#if _OPENMP
    // Show how many threads we have available
    int max_t = omp_get_max_threads();
    cout << "OpenMP using up to " << max_t << " threads" << endl;
#else
    cout << "!!!ERROR!!! Program not compiled for OpenMP" << endl;
    return -1;
#endif

    const long N = 115166;
    const long bytesRequested = N * N * sizeof(double);

    cout << "Allocating " << bytesRequested << " bytes for matrix" <<     endl;

    double* S = new double[ N * N ];

    if( NULL == S ) {
        cout << "!!!ERROR!!! Failed to allocate " << bytesRequested << "         bytes" << endl;
        return -1;
    }

    cout << "Entering main loop" << endl;

#pragma omp parallel for schedule(static)
    for ( long i = 0; i < N - 1; i++ ) {
        for ( long j = i + 1; j < N; j++ ) {
#if _OPENMP
            int tid=omp_get_thread_num();
            if( 0 == i && 1 == j ) {
                int nThreads=omp_get_num_threads();
                cout << "OpenMP loop using " << nThreads << " threads" <<     endl;
            }
#endif

            S[ i * N + j ] = sqrt( i + j );
        }
    }

    cout << "Loop completed" << endl;
    delete S;
    return 0;
}

这是它正在执行的:

[c++]$ ./OMP测试OpenMP 使用多达 256 个线程为矩阵分配 106105660448 字节进入主循环使用 256 个线程的 OpenMP 循环循环完成

但是，当我使用以下(以及迄今为止的任何)并行环境在队列中提交它时，CPU 上的负载猛增(远超过 256)，系统变得完全没有响应，必须断电循环。这是我的 pe 环境:

[c++]$ qconf -sp 线程化pe_name 线程插槽 10000user_lists 无xuser_lists 无start_proc_args/bin/true停止_proc_args/bin/true分配规则 $pe_slotscontrol_slaves 假job_is_first_task TRUEurgency_slots 分钟accounting_summary 真

我已经更改了 control_slaves、job_is_first_task、插槽(减少到 140 以下，任何超过 140 的东西都会出现前面描述的失控负载情况)我什至使用了我创建的不同并行环境。我还将队列中的插槽数减少到 140，但负载仍然跑掉并锁定机器。最后，我尝试了无数次迭代，但这是我的 qsub 脚本:

#!/bin/sh
#$ -cwd
#$ -q sgi-test
## email on a - abort, b - begin, e - end
#$ -m abe
#$ -M <email address>
#source ~/.bash_profile
## for this job, specifying the threaded environment w a "-" ensures the             max number of processors is used
#$ -pe threaded -
echo "slots = $NSLOTS"
export OMP_NUM_THREADS=$NSLOTS
echo "OMP_NUM_THREADS=$OMP_NUM_THREADS"
echo "Running on host=$HOSTNAME"
## memory resource request per thread, max 24 for 32 threads
#$ -l h_vmem=4G
##$ -V
##this environment variable setting is needed only for OpenMP-parallelized     applications
## finally! -- run your process
<path>/OMPtest

最后，由于无限的处理器/插槽总是使机器崩溃，我指定:

    #$ -pe threaded 139

任何高于 139 的值都会使机器崩溃，但 mcelog 或/var/log/messages 中没有输出。任何对可能发生的事情的洞察力都将不胜感激!

最佳答案

自己解决了。在脚本中添加了“-V”选项以将我的环境变量推送到 oge/sge，因为作业在我的调度程序之外的环境中运行得很好。它每次都运行而没有崩溃。可以通过消除/试错过程找出导致问题的变量，但我有很多变量。总而言之，“-V”修复了很多问题，尤其是当您的作业在 OGE/SGE 之外运行良好时。

关于c++ - SGE 中 SGI 机器上的 CPU 负载失控，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39666681/

26

4

0

文章推荐： linux - Fedora arm - Orange Pi plus 2e

文章推荐： c++ - 是否定义了静态初始化实现的顺序？

文章推荐： c++ - 为什么不只有一个？复制构造函数和赋值运算符

文章推荐： java - 如何开始逆向工程 SpaceNavigator 外围数据流？

java - Apache Tika - PrintWriter 适用于本地 Windows 机器，但不适用于 Linux 机器
我被难住了。如果我对文件路径进行硬编码，则此脚本在我的 Windows 机器上的 Eclipse 中运行良好。如果我尝试接受参数并在我的边缘节点(一个 linux 机器)上运行它，它不会抛出任何特定的
linux - 无法从同一 LAN 上的 Linux 机器 ping Windows 7 机器
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。关闭 8 年前。这个问题似乎不是关于 a specific programming problem,
java - AES 解密适用于 Solaris 机器 SunJCE，但不适用于具有 IBMJCE 的 AIX 机器
我们最近将我们的基础架构从 Solaris(Oracle/Sun Java) 迁移到 AIX(IBM Java)。我们的客户将使用我们共享的算法(AES)和 key 上传加密文件，一旦加密文件放置在
linux - 如何通过 ftp 从一台 Linux 机器(客户端)传输加密文件并在另一台 Linux 机器(服务器)上解密
我想编写一个程序(java)，它接受一个文件作为输入，对其进行加密(使用aes128)并通过ftp发送该加密文件，接收者接收它并使用 key 进行解密。我是初学者，有什么帮助可以做到这一点吗？非常感谢
c# - C# WinMobile 6.1 项目中的 C++ DLL - 1c2 机器 (Thumb) 与 14c 机器 (x86)
我正在尝试将一些为 1c2 机器 (thumb) 编译的 DLL 导入 WinMobile 6.1 C# 智能设备项目。然而，当我尝试将它们导入我的 C# 项目时，我得到“无法添加对...的引用”，
cpu - 寻找微型可编程FPGA+机器
我正在寻找 FPGA + 机器。它应该是入门级定价(例如不超过 200 美元)。编辑:我想制作一个 ASM 图表并将 FPGA 编程为我在图表中指定的行为最佳答案你看过Arduino ? 关于
Java bean 机器
这是我想完成的: Write a program that stimulates a bean machine Your program should prompt the user to enter
windows - Docker机器无法使用hyperv成功到达IP地址/机器
我尝试使用以下命令在 Windows 10 上使用 hyperv 创建一台机器: docker-machine create --driver hyperv default 但它给了我: This m
hadoop - 如何为每个节点(机器)配置hadoop映射器num
我有个问题我的问题是我有一个将 mapred.map.tasks 配置为10的作业(抓取工具)，这意味着我的工作将一次创建10个映射器。但是我的集群将 mapred.tasktracker.map.
docker - 无法重启 Docker 机器
我正在尝试使用命令重新启动 Docker sudo docker restart a7f8ce75f51f 但我收到以下错误 Error response from daemon: Cannot re
eclipse - 使用所有插件引导新的 Eclipse 机器
在新机器上引导 Eclipse 是一个非常耗时的过程，您最终会问自己是否真的需要每个插件。但这些都很方便，并且有助于养成一致的习惯。 Eclipse 引导问题包括: 解释/记录需要发生的事情粘贴正确
docker - 在不同的客户端设备上使用相同的 Docker 机器
我们希望建立一个 Docker 开发节点，我们团队中的任何人都可以将东西部署到其中。我使用 SSH 创建了一个新的 Docker 机器，如下所示: docker-machine create \
java - Java中的Singleton Logger可以记录日志方法来自哪个类并记录到多个区域/机器
如果可能的话，我想使用 java.util.logging 来做到这一点，有什么想法吗？谢谢。最佳答案您可以尝试一下SLF4J . Simple Logging Facade for Java (
vagrant - 如何在配置时解锁 Vagrant 机器
当 vagrant up 时，我们的 vagrant box 需要大约 1 小时才能提供第一次运行，在配置过程的最后，我想将盒子打包到本地文件夹中的图像，以便下次需要重建时将其用作基础盒子。我正在使用
python - 无法训练线性 SVM 机器
我正在为我的图像处理项目构建一个 SVM 线性机，在其中提取正样本和负样本的特征并将其保存到目录中。然后，我使用这些功能训练 SVM，但收到一个无法调试的错误。下面是我用于训练分类器的 train-c
mysql - 无法连接到 targat 机器
问题描述: 我要将MySQL server 5.7.11 (win32) 安装到Windows server 2012 中。服务器中安装了多个网络接口(interface)卡，我将安装多个绑定(bin
linux - 自动关闭预定的 Linux 机器
我想安排一台 (AWS) Linux 计算机启动、运行程序，然后自行关闭(以将成本保持在最低水平)。我可以放 mycommand; shutdown 在/etc/rc.local 文件中。但如果我需要
linux - 在网络服务器上设置 Linux 机器
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
linux - 将文件的输出一行发送到远程 Linux 机器
如何将此文件的输出发送到另一台 Linux 计算机的主目录。显然，我想发送此文件的输出: sed '/^\s*#/d;/^$/d' /etc/httpd/conf/httpd.conf 到 nati
linux - 调试未知的 Linux 机器
我有一个 Linux 机器，我可以使用 SSH 进行 root 访问。我想使用GDB来调试系统。这是一个精简的 Debian 软件包；因此，我里面没有任何编译工具。 uname -a 给出: 2.

首页

博学

6Ren·AI

商城

c++ - SGE 中 SGI 机器上的 CPU 负载失控