- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在远程的单个节点上运行并行 Matlab 作业 cluster .集群的每个节点都有 2 个处理器,每个处理器有 24 个内核,每个节点总共有 48 个内核。该作业包含一些顺序代码,后跟一个 parfor
循环。我使用 slurm
bash 脚本运行它。
bash 脚本 test.sh
是:
#!/bin/bash
#
########## Begin Slurm header ##########
#
# Give job a reasonable name
#SBATCH -J test_1
#
# Request number of nodes and CPU cores per node for job
#SBATCH --nodes=1
# Request number of tasks/process per nodes
# (determines number of workers in processed based parpool)
#SBATCH --tasks-per-node=48
# Estimated wallclock time for job
#SBATCH -t 1-00
#
# Send mail when job begins, aborts and ends
#SBATCH --mail-type=ALL
#
########### End Slurm header ##########
echo "Submit Directory: $SLURM_SUBMIT_DIR"
echo "Working Directory: $PWD"
echo "Running on host $HOSTNAME"
echo "Job id: $SLURM_JOB_ID"
echo "Job name: $SLURM_JOB_NAME"
echo "Number of nodes allocated to job: $SLURM_JOB_NUM_NODES"
echo "Number of cores allocated to job: $SLURM_NPROCS"
echo "Number of requested tasks per node: $SLURM_NTASKS_PER_NODE"
# Load module
module load math/matlab/R2020a
# Create a local working directory on scratch
mkdir -p $SCRATCH/$SLURM_JOB_ID
# Start a Matlab program
matlab -nodisplay -batch test_1 > test_1.out 2>&1
# Cleanup local working directory
rm -rf $SCRATCH/$SLURM_JOB_ID
exit
Matlab 脚本是
% Create parallel pool
pc = parcluster('local');
pc.JobStorageLocation = strcat(getenv('SCRATCH'),'/',getenv('SLURM_JOB_ID'));
num_workers = str2double(getenv('SLURM_NPROCS'));
parpool(pc,num_workers);
% Body of the script
% Choose deterministic parameters
free_points = 845000;
pulse_points = 1300000;
dt = 2e-11;
num_freqs = 200;
freqs = linspace(-1,1,200);
rhoi = rand(72);
rhoi = rhoi + rhoi';
rhoi = rhoi/trace(rhoi);
% Iterate over random parameters
num_pars = 5;
res = zeros(num_pars,num_freqs);
for n=1:num_pars
disp('=====');
disp(['N = ',num2str(n)]);
disp('=====');
timer = tic;
% Random parameters
H = rand(size(rhoi));
H = (H + H')/2;
L1 = rand(size(rhoi));
L2 = rand(size(rhoi));
L3 = rand(size(rhoi));
L4 = rand(size(rhoi));
L5 = rand(size(rhoi));
% Equation to solve
ME = @(rhot, t, w) -1i*w*(H*rhot - rhot*H) + (L1*rhot*L1' - (1/2)*rhot*L1'*L1 - (1/2)*L1'*L1*rhot) ...
+ (L2*rhot*L2' - (1/2)*rhot*L2'*L2 - (1/2)*L2'*L2*rhot) ...
+ (L3*rhot*L3' - (1/2)*rhot*L3'*L3 - (1/2)*L3'*L3*rhot) ...
+ (L4*rhot*L4' - (1/2)*rhot*L4'*L4 - (1/2)*L4'*L4*rhot) ...
+ (L5*rhot*L5' - (1/2)*rhot*L5'*L5 - (1/2)*L5'*L5*rhot);
% Solve equation
% IF I CHANGE TO 'for j = 1:1', ALL WORKERS ARE USED!!! MEMORY?
for j = 1:free_points
rhoi = RK4(@(rho, t) ME(rho, t, 0), rhoi, j, dt);
end
t = toc(timer);
disp(['Mid duration ',num2str(t),'s']);
parfor k=1:num_freqs
w = freqs(k);
rhop = rhoi;
for j=1:pulse_points
rhop = RK4(@(rho, t) ME(rho, t, w), rhop, j, dt);
end
for j=1:free_points
rhop = RK4(@(rho, t) ME(rho, t, 0), rhop, j, dt);
end
occ(k) = rhop(1,1);
end
% Store result
res(n,:) = occ;
end
save('res','res');
% Delete the parallel pool
delete(gcp('nocreate'));
% Local functions
function [rho] = RK4(F, rho, k, h)
k1 = F(rho, k*h);
k2 = F(rho+h*k1/2, (k+1/2)*h);
k3 = F(rho+h*k2/2, (k+1/2)*h);
k4 = F(rho+h*k3, (k+1)*h);
rho = rho+(1/6)*h*(k1+2*k2+2*k3+k4);
end
slurm
输出是
#
# SOME PERSONAL INFO HERE...
#
Number of nodes allocated to job: 1
Number of cores allocated to job: 48
Number of requested tasks per node: 48
IMPORTANT: The MATLAB Academic site license is available to employees and
enrolled students of the the universities of (CENSORED).
The license is available for teaching or research only.
Commercial applications are not permitted.
Matlab 的输出是
Starting parallel pool (parpool) using the 'local' profile ...
Connected to the parallel pool (number of workers: 48).
=====
N = 1
=====
Mid duration 3608.9535s
Starting parallel pool (parpool) using the 'local' profile ...
Connected to the parallel pool (number of workers: 12).
#
# REST OF OUTPUT HERE...
#
您会看到,当 Matlab 脚本启动时,会创建一个包含 48 个 worker 的池。但是当 parfor
循环最终开始时,parpool
重新启动并且 worker 的数量降级为 12。
我注意到只有当循环的大小足够大时才会发生这种情况,即使是非parfor
循环也是如此。例如,如果我将第一个 for
循环的大小更改为 1,则 parpool
不会重新启动。所以我认为这可能与内存使用有关...?
知道发生了什么以及如何让 Matlab 使用分配的所有 48 个内核吗?
编辑:我尝试过的另一件事是删除 parpool
命令并在 parfor
循环中将集群指定为 parfor (k=1:num_freqs ,电脑)
。当我这样做时,无论我的循环大小如何,Matlab 都会使用四分之一的 worker 。我会尝试直接联系管理员...
最佳答案
我打赌你的并行池在你的 parfor
循环之间超时。然后它会自动创建,大小为 12,因为这是“并行池中工作人员的首选数量”( doc ) 的默认首选项。 (就个人而言,我不太在意这种偏好,总是将值设置为 99999 并让其他东西控制池的大小,但在你的情况下,如果你的 SLURM 工作人员不共享一个,你可能无法做到这一点MATLAB 首选项目录 (prefdir
)。
我建议您使用 Inf
的 IdleTimeout
创建大小为 48 的池,如下所示:
num_workers = str2double(getenv('SLURM_NPROCS'));
parpool(pc,num_workers,'IdleTimeout',Inf);
关于bash - Matlab parfor 使用的内核数少于分配的内核数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68146950/
我正在运行遗传算法,并且正在尝试并行化种群生成。 我的实际代码: Q = []; parfor i=1:halfPop pa = P(select(f),:); pb = P(sele
为什么即使 MATLAB 不应该转到 switch 语句的第一个 case,它也会抛出错误?下面是最小的例子: mycase = 2; non_crack_bytes = 1:6000; syn_cr
有人知道为什么这不起作用吗?我正在尝试运行 parfor 循环。我可以使用简单的 for 循环执行完全相同的代码,但我需要将其与 parfor 一起用于海量数据集。 parfor n = [1:row
在这段最小的可执行代码中: a = []; workers = parpool('local',4); someboolean = false; parfor i = 1:4 if someb
我正在使用 fminsearch 将模型拟合到多个数据集,并且我正在尝试并行执行它们。我的代码一直运行到 parfor 循环的开始,但是 parfor 循环似乎要花很长时间 才能开始! (不执行 pa
我有一组图像 (~10^7),它们包含在一个巨大的二进制文件中。我想使用我已有的功能有效地阅读和分析它们。代码中该用户函数 foo 的每次迭代大约需要 0.1 秒,因此代码使用读取数据库的简单 for
我正在运行一个带有 parfor 循环的小脚本。该脚本以以下行开头: parfor i=1:length(vX) fprintf('%d/%d\n',i,length(X)); ...
我有一个句柄类: classdef A
在 parfor 循环中,我试图调用一个访问 global 的函数但无济于事。 函数 function a = getA() global OPTIONS; a=OPTIONS.PROBL
我有一段代码可以在一系列图像中找到哈里斯角点。我需要对 92 张图像执行此操作,但速度相当慢。因此,我想并行运行代码。我下面的代码有一个与变量“corners”相关的错误 %% Harris corn
有人知道在 matlab 中使用 parfor 的这段简单代码中发生了什么吗?谢谢, 我将一个矩阵分成四个数组,并想独立更新每个数组中的元素 这是一个简单的版本: a = zeros(4,4); p
我在 parfor 循环中生成加扰的准蒙特卡罗数时遇到问题。 问题是,当我在 parfor 循环中生成多组这些数字时,每组中的数字最终都是相同的。我在下面包含一个非常简单的示例。 D = 3; M =
我正在远程的单个节点上运行并行 Matlab 作业 cluster .集群的每个节点都有 2 个处理器,每个处理器有 24 个内核,每个节点总共有 48 个内核。该作业包含一些顺序代码,后跟一个 pa
为什么我不能在这段代码中使用parfor? parfor i=1:r for j=1:N/r xr(j + (N/r) * (i-1)) = x(i + r * (j-1));
我知道一些不确定性源于 parfor 的并行性质,但我不明白为什么它应该是完全随机的。有没有办法强制 parfor 尊重(至少宽松地)循环的顺序?更具体地说,我希望在以下情况下这样做: parfor
我正在远程的单个节点上运行并行 Matlab 作业 cluster .集群的每个节点都有 2 个处理器,每个处理器有 24 个内核,每个节点总共有 48 个内核。该作业包含一些顺序代码,后跟一个 pa
我的计算基于二叉树,它采用变量 block (称为程序集)的两个先前实例并生成另一个。一个新的程序集是基于上层分支的两个程序集生成的,因此必须存储所有变量。 为此,我使用具有以下语法的元胞数组:Ass
我正在尝试在 MATLAB 的 parfor 循环中使用一个表。这给了我“透明度违规错误。请参阅有关透明度的并行计算工具箱”我正在尝试构建此表,以便我可以使用来自 MATLAB 分类学习器应用程序的训
我有一个 3 维网格,对于网格中的每个点,我想为大量时间步长计算时间相关函数 G(t),然后对每个网格点的 G 函数求和。使用 4 个 for 循环执行时间变得非常长,所以我试图使用 parfor 避
假设我有两个函数写在不同的脚本上,比如 function1.m 和 function2.m 这两个函数中的两个计算是独立的(一些输入可能是同样,例如说 function1(x,y) 和 functio
我是一名优秀的程序员,十分优秀!