- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
该代码用于并行化字符串匹配算法(暴力)。为什么只启动 5 个线程而不是 17 个?
#include<stdio.h>
#include<string.h>
__global__ void pattern_search(char* d_txt,char* d_pat,int* d_result,int N,int M){
int id=threadIdx.x+blockIdx.x*blockDim.x;
if(id<=(N)){
int j=0;
for(j=0;j<M;j++){
if(d_txt[id+j]!=d_pat[j]){
break;
}
}
//if(j==M){
d_result[id]=id;
//}
}
}
int main(){
char txt[]="AABAACAADAABAAABAA";
char pat[]="AABA";
int N=strlen(txt);
int M=strlen(pat);
char* d_pat;
cudaMalloc((void **)&d_pat,M);
char* d_txt;
cudaMalloc((void **)&d_txt,N);
int result[N];
for(int i=0;i<N;i++){
result[i]=0;
}
int* d_result;
cudaMalloc((void**)&d_result,N);
cudaMemcpy(d_txt,txt,N,cudaMemcpyHostToDevice);
cudaMemcpy(d_pat,pat,M,cudaMemcpyHostToDevice);
cudaMemcpy(d_result,result,N,cudaMemcpyHostToDevice);
pattern_search<<<1,50>>>(d_txt,d_pat,d_result,N,M);
cudaMemcpy(result,d_result,N,cudaMemcpyDeviceToHost);
for(int k=0;k<N;k++){
printf("pattern found at:%d\n",result[k]);
}
}
最佳答案
每当您在使用 CUDA 代码时遇到问题时,演示和使用 proper cuda error checking 是一个很好的做法。 并使用 cuda-memcheck
运行您的代码。如果您使用 cuda-memcheck
运行此代码,它会报告可能具有指导意义的错误。
不清楚为什么您会询问 17 个线程。在 CUDA 中,启动的线程数可以从内核启动中推断出来,简单来说,它是内核启动配置中前两个数字的乘积( <<<...>>>
):
pattern_search<<<1,50>>>(d_txt,d_pat,d_result,N,M);
因此在这种情况下,它应该启动 50 个线程。即使您的问题仅限于 N
,号码N
因为您发布的代码是 18,而不是 17。
cudaMalloc
,如主机端malloc
,以字节为单位分配内存。因此,对于这种情况,这样的用法是不正确的:
cudaMalloc((void**)&d_result,N);
相反,你应该这样做:
cudaMalloc((void**)&d_result,N*sizeof(int));
因为在这种情况下您想要存储 N
尺寸数量int
。此错误可通过 cuda-memcheck
发现这将报告无效 __global__
由于此分配错误而写入。
您的 cudaMemcpy
上也出现类似的问题调用,它也在字节上运行(就像主机 memcpy
)。而不是这个:
cudaMemcpy(d_result,result,N,cudaMemcpyHostToDevice);
我们想要这个:
cudaMemcpy(d_result,result,N*sizeof(int),cudaMemcpyHostToDevice);
并且需要对内核之后的调用进行类似的更正。
您的内核存在索引越界错误:
if(id<=(N)){
int j=0;
for(j=0;j<M;j++){
if(d_txt[id+j]!=d_pat[j]){
上面的代码将允许 for 循环索引超出数组的末尾 d_txt
长度限制为 N
。为了解决这个问题,我们可以将循环行为限制为仅在有足够的“索引空间”用于 j 循环的完整迭代时才运行:
if((id+M)<=(N)){
int j=0;
for(j=0;j<M;j++){
if(d_txt[id+j]!=d_pat[j]){
(并且可能还有许多其他方法来解决此问题。)此错误可能已被无效的 __global__
发现。读取cuda-memcheck
报道.
以下代码解决了上述问题,并且运行时没有错误:
$ cat t964.cu
#include<stdio.h>
#include<string.h>
#define cudaCheckErrors(msg) \
do { \
cudaError_t __err = cudaGetLastError(); \
if (__err != cudaSuccess) { \
fprintf(stderr, "Fatal error: %s (%s at %s:%d)\n", \
msg, cudaGetErrorString(__err), \
__FILE__, __LINE__); \
fprintf(stderr, "*** FAILED - ABORTING\n"); \
exit(1); \
} \
} while (0)
__global__ void pattern_search(char* d_txt,char* d_pat,int* d_result,int N,int M){
int id=threadIdx.x+blockIdx.x*blockDim.x;
if((id+M)<=(N)){
int j=0;
for(j=0;j<M;j++){
if(d_txt[id+j]!=d_pat[j]){
break;
}
}
//if(j==M){
d_result[id]=id;
//}
}
}
int main(){
char txt[]="AABAACAADAABAAABAA";
char pat[]="AABA";
int N=strlen(txt);
int M=strlen(pat);
char* d_pat;
cudaMalloc((void **)&d_pat,M);
char* d_txt;
cudaMalloc((void **)&d_txt,N);
int result[N];
for(int i=0;i<N;i++){
result[i]=0;
}
int* d_result;
cudaMalloc((void**)&d_result,N*sizeof(int));
cudaMemcpy(d_txt,txt,N,cudaMemcpyHostToDevice);
cudaMemcpy(d_pat,pat,M,cudaMemcpyHostToDevice);
cudaMemcpy(d_result,result,N*sizeof(int),cudaMemcpyHostToDevice);
cudaCheckErrors("1");
pattern_search<<<1,50>>>(d_txt,d_pat,d_result,N,M);
cudaMemcpy(result,d_result,N*sizeof(int),cudaMemcpyDeviceToHost);
cudaCheckErrors("2");
for(int k=0;k<N;k++){
printf("pattern found at:%d\n",result[k]);
}
}
您没有准确指出您期望的输出,但结果对我来说似乎是合理的。
请注意,我对上面第 5 项应用的修复意味着只有第一个 N-M+1
线程将报告结果。如果您想要某种不同的行为(不确定您想要哪种模式匹配),当然还有其他方法可以修改它。
将来,如果您想避免否决票和接近票,我的建议是注意您的问题本质上是在请求调试帮助(“为什么这段代码不起作用?”),所以它属于 SO expects 的问题类别一个MCVE 。您提供了完整的代码,这很好。可能还有其他一些可以改进的地方:
更清楚地说明问题所在。关于有多少线程正在运行的问题不是很清楚。对于一个好的 MCVE,您应该解释预期结果并显示实际结果。在某些情况下,提及 CUDA 版本、编译命令行以及您正在使用的平台(主机操作系统)也可能很有用。
演示并使用正确的 cuda 错误检查和 cuda-memcheck
的使用。即使您不理解错误输出,也可以在您的问题中描述或包含它 - 这对于其他试图帮助您的人来说会很有用。
关于c - 为什么只有少量线程启动?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33457598/
每当我运行命令以将 Virtualbox 驱动程序启动 Minishift 到操作系统主机时,它都需要一段疯狂的时间,而且它永远不会结束。有时我什至收到有关达到存储限制的错误消息。 不知道是不是描述h
您好,我正在使用 npm 运行一个基本的 React 项目,我正尝试在 docker 容器中启动它。但是我实际上无法让项目运行。我的 dockerfile 看起来像这样: FROM node:7.8.
所以我想从我的 SSH 终端开始游戏。 这真的很奇怪,当我直接从 Linux GUI 执行此操作时,它可以工作。但是当我使用 SSH 客户端进行远程连接时,它就崩溃了。似乎与我的显示驱动程序有关。 U
我有一个显示图像的动态壁纸。我在 Activity 中更改了该图像。然后我需要通知动态壁纸,以便它知道重新加载资源。 Intent 似乎是完美、简单的解决方案: Intent intent = new
我有一个似乎无法解决的问题。我在 Boot Dashboard 中使用 STS 3.9.2 从 Eclipse (Oxygen) 启动 Spring Boot 应用程序没有任何问题: 但是,当我尝试从
全新的 Python,在我开始摆弄东西之前先设置和安装东西。我的理解是 Python 2.7 和 Python 3.3 之间存在一些显着差异/不兼容,尽管这两个版本都得到了很好的使用,所以我认为最好安
在使用了很长时间的 jQuery 之后,我有一个问题,我正在使用 jQuery 模式(样式)编写一个简单的代码, (function(window, undefined) { var jQu
我正在尝试在 spring boot 应用程序下的非 spring 托管类中配置 Autowired。我在 tomcat 服务器下部署的 Web 应用程序下成功运行了这个。但是当我想在 spring
我对 xmonad 完全陌生,但我想开始使用它来提高我的工作效率。 这是我一直在使用的指南(我使用的是 Apple OS X Snow Leopard) http://xmonad.org/tour.
我试图将Spring Boot指南中的Managing Transactions示例扩展到两个数据源,但是@Transaction注释似乎仅对其中一个数据源有效。 在“Application.java
conEmu 有没有办法默认打开多个不同的选项卡? 我看到这个页面解释了如何使用 splits , 我意识到我可以按 Ctrl + T, 1, Enter,但我希望有一种方法可以自动执行此操作! "%
我正在寻找快速而肮脏的答案。我当时脑子一片空白,盯着屏幕看了 12 个小时以上,我想我中枪了。 我想做一个简单的 SignalR 应用程序作为教程。我找到了这个example ,但我不断收到票证未定义
我正在使用 Azure Powershell cmdlet 来启动/停止 VM。 Start-AzureVM [-ServiceName] [-Name] [ ] Stop-AzureVM [-S
我想使用Powershell脚本代码启动/停止iis和mssql 意味着当我运行ps脚本时,我想启动/停止iis和mssql 我在网上搜索了它,发现了一些代码,但按照我的要求无法正常工作 码: $ii
我在 liferay 工作。我们在我们的项目中使用一个模块来创建 liferay 主题。我使用命令 ant -Ddeploy.war=true 将它部署在服务器中。 war 文件在 liferay 部
我想在已安装 Python 2.7 的 Windows XP 计算机上运行 IPython(版本 0.12)。 我通过 Windows 二进制安装程序安装,但安装后 IPython 没有显示在菜单中,
我从创建了自己的简单图片。 FROM python:2.7.11 RUN mkdir /extra/later/ \ && mkdir /yyy 现在,我可以执行以下步骤: docker run
$(document).ready(function () { setTimeout(function() { window.location.reload(); }, 2000); // 2
我刚刚创建了一个帐户 OpenWeatherMap 我想通过城市 ID API 调用获取当前位置的天气: http://api.openweathermap.org/data/2.5/weather?
我注意到,如果我更改 xcasset 中的图像,启动 Storyboard不会更新。 例如,假设您的启动 Storyboard中有一个 UIImage View ,其中包含一个名为“logo”的蓝色图
我是一名优秀的程序员,十分优秀!