- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在将某些数据结构卸载到 MIC 时遇到问题。
我使用以下指令将负载转移到 MIC:
#pragma offload target(mic:mic_no)\
inout(is_selected : length(query_sequences_count)ALLOC)\
in(a:length(a_size) ALLOC)\
in(a_disp:length(offload_db_count)ALLOC)
但是,如果我尝试在卸载区域内执行:
//loads next 64 characters of a into datadb
__m512i datadb __attribute__ ((aligned(64)));
datadb = _mm512_load_epi32(a+iter_db+a_disp[j]);
这会导致以下错误:
Offload error:process on the device 0 was terminated by signal 11(SIGSEGV)
但是如果我将 a 的内容复制到另一个数组中,如下所示:
char db[64];
for(window_db_iter = 0; window_db_iter < 64; window_db_iter++)
db[window_db_iter] = *(a+iter_db+a_disp[j]+window_db_iter);
//Now this works fine
datadb = _mm512_load_epi32(db);
我已经检查了 a 卸载的长度是否正确,a_size 是 a 的大小,并且 a_disp 也是正确的。此外,a+iter_db+a_disp[j] 始终保持在内存范围内。我的猜测是,这与将内存复制到 MIC 的过程有关。有什么想法吗?
谢谢!
最佳答案
过了一段时间,我找到了问题的答案。
首先需要对齐数据结构。如果不是,它将返回一个错误。 Offload错误并不意味着错误是在将内存从主机CPU复制到协处理器的过程中引起的,它可能是在代码中的任何地方引起的。
其次,如果您有未对齐的内存并且不能/不想对齐它,您可以在卸载期间使用对齐修饰符,如下所示:
#pragma offload target(mic:mic_no)\
inout(is_selected : length(query_sequences_count)ALLOC)\
in(a[0:a_size]: aligned(64) ALLOC)\
in(a_disp:length(offload_db_count)ALLOC)
现在复制的内存将被对齐复制。
关于c - 卸载到 MIC (Xeon Phi) 时迭代加载的阵列时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37052171/
这个问题在这里已经有了答案: How can I find the time complexity of an algorithm? (10 个答案) 关闭 10 个月前。 Fibonacci 的正
是否可以通过启动多个线程来使用至强融核, 还是需要使用至强融核的特殊编程类型? 最佳答案 英特尔有一些相当不错的数学库,IPP/MKL。在至强融核似乎是一字不漏的阅读中,我想象英特尔拥有这些库的一个版
最近在研究Linux phy driver,有一些问题需要帮助。 例如:我的以太网 phy 是 Marvell Alaska 88E1548 我如何知道内核是否支持此 phy? 我在driver/ne
没那么重要,但烦人到没完没了。为什么 matlab 没有小 phi (\varphi) 符号?它几乎具有 LaTeX 提供的所有其他符号,但不是这个。为什么? 我当然可能是错的,在这种情况下,如果有人
是否可以从标准计算机以太网接口(interface)直接从物理以太网连接接口(interface)读取位? 例如,假设我想将笔记本电脑的以太网插孔用作差分逻辑探头(使用标准以太网电缆)。我是否可以潜在
当我使用命令 clang -emit-llvm -S test.c -o test.ll 时,IR 文件中没有任何“phi”指令。我怎么才能得到它? 我知道我可以使用传递“-mem2reg”或“-gv
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
我想获取 xeon phi 上字符串的所有子字符串 首先,我从 args 读取一个 txt 文件并将其存储到这样的指针数组中 char *temp_string[N_ELEMENT]; 其次,我想使用
我正在通过 Stampede 使用 Xeon Phi 解决 Collatz 猜想问题。我已经测试过我的代码,对于高达 100,000 的值可以正常工作,但是测试高达 100 万的值时,我几乎立即收
我正在使用带卸载功能的 cilk plus 在 Xeon phi 上进行一些性能测试。 在一个简单的 vector 加法程序中,我有两种方法: 使用 cilk_for 将任务拆分到 Xeon phi
我想构建一个应用程序,用户可以在其中将多个标签(字符串)分配给一个日期(YYYY-MM-DD 字符串)。主要用例是计算 Phi coefficient对于两个标签(A 和 B)的组合,需要将每个日期放
我必须在 Linux 中编写以太网 PHY 环回测试。我以前从未做过,也不知道从哪里开始。经过一番研究,我想出了测试的方案,不知道有没有人能帮我验证一下,给我一些问题的指点。 这是一个外部环回设置。它
考虑购买一对 Xeon Phi 5110P,但试图估计我需要更改多少代码或需要其他软件。 目前我善用R在多核 Windows 机器(24 核)上使用 foreach包,传递给其他包forecast ,
在 Nvidia GPU 上,我们可以通过使用 Streams 让多个内核同时运行。至强 Phi 怎么样?如果我通过不同的线程卸载两部分计算代码,它们会在至强融核上并发运行吗? 最佳答案 是的,您可以
LLVM 有 phi带有相当奇怪解释的指令: The 'phi' instruction is used to implement the φ node in the SSA graph repres
当只有一个可能的前任时,使用 phi 节点有什么好处?例如,当我运行 opt -loop- some-cool-file.ll -S , 如果我还没有添加的话,输出将经常包括一个只有一个可能的前任的
当我在计算器 Cos45 上书写时,我得到一个小数 = 0.707 如何在 C 中生成这样的数字。 我测试了这个: printf ("type a degree between 0 - 360:\n"
从这里https://software.intel.com/en-us/videos/purpose-of-the-mic-architecture我了解具有复杂或大量随机内存访问的应用程序不太适合
在修复上一个问题 (Python AttributeError:cos) 中的导入并使用 sympy 函数稍作更改后: from sympy import * from sympy import Sy
对于一个学校项目,我需要找到球形纹理贴图的 theta 和 phi。许多用于纹理的实际 OpenGL 已经完成(带有起始代码)。起始代码提供了以下功能和注释。代码是我到目前为止所做的(除了给定的 x
我是一名优秀的程序员,十分优秀!