c - 为什么只有少量线程启动？-6ren

c - 为什么只有少量线程启动？

转载作者：行者123 更新时间：2023-11-30 21:02:02

25

4

该代码用于并行化字符串匹配算法(暴力)。为什么只启动 5 个线程而不是 17 个？

#include<stdio.h>
#include<string.h>

__global__ void pattern_search(char* d_txt,char* d_pat,int* d_result,int N,int M){
    int id=threadIdx.x+blockIdx.x*blockDim.x;
    if(id<=(N)){
        int j=0;
        for(j=0;j<M;j++){
            if(d_txt[id+j]!=d_pat[j]){
                break;
            }
        }
        //if(j==M){
            d_result[id]=id;
        //}

    }
}

int main(){
    char txt[]="AABAACAADAABAAABAA";
    char pat[]="AABA";

    int N=strlen(txt);
    int M=strlen(pat);
    char* d_pat;
    cudaMalloc((void **)&d_pat,M);
    char* d_txt;
    cudaMalloc((void **)&d_txt,N);

    int result[N];
    for(int i=0;i<N;i++){
        result[i]=0;
    }

    int* d_result;
    cudaMalloc((void**)&d_result,N);
    cudaMemcpy(d_txt,txt,N,cudaMemcpyHostToDevice);
    cudaMemcpy(d_pat,pat,M,cudaMemcpyHostToDevice);
    cudaMemcpy(d_result,result,N,cudaMemcpyHostToDevice);
    pattern_search<<<1,50>>>(d_txt,d_pat,d_result,N,M);

    cudaMemcpy(result,d_result,N,cudaMemcpyDeviceToHost);

    for(int k=0;k<N;k++){

        printf("pattern found at:%d\n",result[k]);
    }
}

最佳答案

每当您在使用 CUDA 代码时遇到问题时，演示和使用 proper cuda error checking 是一个很好的做法。并使用 cuda-memcheck 运行您的代码。如果您使用 cuda-memcheck 运行此代码，它会报告可能具有指导意义的错误。
不清楚为什么您会询问 17 个线程。在 CUDA 中，启动的线程数可以从内核启动中推断出来，简单来说，它是内核启动配置中前两个数字的乘积( <<<...>>> ):
```
pattern_search<<<1,50>>>(d_txt,d_pat,d_result,N,M);
```
因此在这种情况下，它应该启动 50 个线程。即使您的问题仅限于 N ，号码N因为您发布的代码是 18，而不是 17。
cudaMalloc ，如主机端malloc ，以字节为单位分配内存。因此，对于这种情况，这样的用法是不正确的:
```
cudaMalloc((void**)&d_result,N);
```
相反，你应该这样做:
```
cudaMalloc((void**)&d_result,N*sizeof(int));
```
因为在这种情况下您想要存储 N尺寸数量int 。此错误可通过 cuda-memcheck 发现这将报告无效 __global__由于此分配错误而写入。
您的 cudaMemcpy 上也出现类似的问题调用，它也在字节上运行(就像主机 memcpy )。而不是这个:
```
cudaMemcpy(d_result,result,N,cudaMemcpyHostToDevice);
```
我们想要这个:
```
cudaMemcpy(d_result,result,N*sizeof(int),cudaMemcpyHostToDevice);
```
并且需要对内核之后的调用进行类似的更正。
您的内核存在索引越界错误:
```
if(id<=(N)){
    int j=0;
    for(j=0;j<M;j++){
        if(d_txt[id+j]!=d_pat[j]){
```
上面的代码将允许 for 循环索引超出数组的末尾 d_txt长度限制为 N 。为了解决这个问题，我们可以将循环行为限制为仅在有足够的“索引空间”用于 j 循环的完整迭代时才运行:
```
if((id+M)<=(N)){
    int j=0;
    for(j=0;j<M;j++){
        if(d_txt[id+j]!=d_pat[j]){
```
(并且可能还有许多其他方法来解决此问题。)此错误可能已被无效的 __global__ 发现。读取cuda-memcheck报道.

以下代码解决了上述问题，并且运行时没有错误:

$ cat t964.cu
#include<stdio.h>
#include<string.h>

#define cudaCheckErrors(msg) \
    do { \
        cudaError_t __err = cudaGetLastError(); \
        if (__err != cudaSuccess) { \
            fprintf(stderr, "Fatal error: %s (%s at %s:%d)\n", \
                msg, cudaGetErrorString(__err), \
                __FILE__, __LINE__); \
            fprintf(stderr, "*** FAILED - ABORTING\n"); \
            exit(1); \
        } \
    } while (0)


__global__ void pattern_search(char* d_txt,char* d_pat,int* d_result,int N,int M){
    int id=threadIdx.x+blockIdx.x*blockDim.x;
    if((id+M)<=(N)){
        int j=0;
        for(j=0;j<M;j++){
            if(d_txt[id+j]!=d_pat[j]){
                break;
            }
        }
        //if(j==M){
            d_result[id]=id;
        //}

    }
}

int main(){
    char txt[]="AABAACAADAABAAABAA";
    char pat[]="AABA";

    int N=strlen(txt);
    int M=strlen(pat);
    char* d_pat;
    cudaMalloc((void **)&d_pat,M);
    char* d_txt;
    cudaMalloc((void **)&d_txt,N);

    int result[N];
    for(int i=0;i<N;i++){
        result[i]=0;
    }

    int* d_result;
    cudaMalloc((void**)&d_result,N*sizeof(int));
    cudaMemcpy(d_txt,txt,N,cudaMemcpyHostToDevice);
    cudaMemcpy(d_pat,pat,M,cudaMemcpyHostToDevice);
    cudaMemcpy(d_result,result,N*sizeof(int),cudaMemcpyHostToDevice);
    cudaCheckErrors("1");
    pattern_search<<<1,50>>>(d_txt,d_pat,d_result,N,M);

    cudaMemcpy(result,d_result,N*sizeof(int),cudaMemcpyDeviceToHost);
    cudaCheckErrors("2");
    for(int k=0;k<N;k++){

        printf("pattern found at:%d\n",result[k]);
    }
}

您没有准确指出您期望的输出，但结果对我来说似乎是合理的。

请注意，我对上面第 5 项应用的修复意味着只有第一个 N-M+1线程将报告结果。如果您想要某种不同的行为(不确定您想要哪种模式匹配)，当然还有其他方法可以修改它。

将来，如果您想避免否决票和接近票，我的建议是注意您的问题本质上是在请求调试帮助(“为什么这段代码不起作用？”)，所以它属于 SO expects 的问题类别一个MCVE 。您提供了完整的代码，这很好。可能还有其他一些可以改进的地方:

更清楚地说明问题所在。关于有多少线程正在运行的问题不是很清楚。对于一个好的 MCVE，您应该解释预期结果并显示实际结果。在某些情况下，提及 CUDA 版本、编译命令行以及您正在使用的平台(主机操作系统)也可能很有用。
演示并使用正确的 cuda 错误检查和 cuda-memcheck 的使用。即使您不理解错误输出，也可以在您的问题中描述或包含它 - 这对于其他试图帮助您的人来说会很有用。

关于c - 为什么只有少量线程启动？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33457598/

25

4

0

文章推荐：计算用户输入数字的平均值

文章推荐： c - C 446 中的多个 if 语句

文章推荐： c - 嵌套开关: why does the second switch command not accept an input?

out-of-memory - 启动 minishift 或占用大量内存时，启动 OpenShift 集群永远不会结束
每当我运行命令以将 Virtualbox 驱动程序启动 Minishift 到操作系统主机时，它都需要一段疯狂的时间，而且它永远不会结束。有时我什至收到有关达到存储限制的错误消息。不知道是不是描述h
node.js - 使用 docker 启动 npm 启动？
您好，我正在使用 npm 运行一个基本的 React 项目，我正尝试在 docker 容器中启动它。但是我实际上无法让项目运行。我的 dockerfile 看起来像这样: FROM node:7.8.
linux - 无法从 SSH 启动 MonoGame，但可以从 GUI 启动
所以我想从我的 SSH 终端开始游戏。这真的很奇怪，当我直接从 Linux GUI 执行此操作时，它可以工作。但是当我使用 SSH 客户端进行远程连接时，它就崩溃了。似乎与我的显示驱动程序有关。 U
android - 从 WallpaperService 启动 Intent 或向 WallpaperService 启动 Intent
我有一个显示图像的动态壁纸。我在 Activity 中更改了该图像。然后我需要通知动态壁纸，以便它知道重新加载资源。 Intent 似乎是完美、简单的解决方案: Intent intent = new
java - 可以从 Eclipse (STS) 启动 Spring Boot，但不能从 CLI 启动
我有一个似乎无法解决的问题。我在 Boot Dashboard 中使用 STS 3.9.2 从 Eclipse (Oxygen) 启动 Spring Boot 应用程序没有任何问题: 但是，当我尝试从
python - 在 CMD "python"启动 Python 3.3， "py"启动 Python 2.7，我该如何更改？
全新的 Python，在我开始摆弄东西之前先设置和安装东西。我的理解是 Python 2.7 和 Python 3.3 之间存在一些显着差异/不兼容，尽管这两个版本都得到了很好的使用，所以我认为最好安
jQuery 启动
在使用了很长时间的 jQuery 之后，我有一个问题，我正在使用 jQuery 模式(样式)编写一个简单的代码， (function(window, undefined) { var jQu
Spring 启动@Configurable
我正在尝试在 spring boot 应用程序下的非 spring 托管类中配置 Autowired。我在 tomcat 服务器下部署的 Web 应用程序下成功运行了这个。但是当我想在 spring
haskell - 启动 xmonad
我对 xmonad 完全陌生，但我想开始使用它来提高我的工作效率。这是我一直在使用的指南(我使用的是 Apple OS X Snow Leopard) http://xmonad.org/tour.
Spring 启动-管理交易和多个数据源
我试图将Spring Boot指南中的Managing Transactions示例扩展到两个数据源，但是@Transaction注释似乎仅对其中一个数据源有效。在“Application.java
Conemu 启动，任务打开多个选项卡
conEmu 有没有办法默认打开多个不同的选项卡？我看到这个页面解释了如何使用 splits , 我意识到我可以按 Ctrl + T, 1, Enter，但我希望有一种方法可以自动执行此操作! "%
jquery - SignalR - 启动
我正在寻找快速而肮脏的答案。我当时脑子一片空白，盯着屏幕看了 12 个小时以上，我想我中枪了。我想做一个简单的 SignalR 应用程序作为教程。我找到了这个example ，但我不断收到票证未定义
powershell - 启动/停止特定订阅下的所有虚拟机
我正在使用 Azure Powershell cmdlet 来启动/停止 VM。 Start-AzureVM [-ServiceName] [-Name] [ ] Stop-AzureVM [-S
iis - 启动/停止iis和mssql的powershell脚本代码
我想使用Powershell脚本代码启动/停止iis和mssql 意味着当我运行ps脚本时，我想启动/停止iis和mssql 我在网上搜索了它，发现了一些代码，但按照我的要求无法正常工作码: $ii
liferay - 启动 liferay
我在 liferay 工作。我们在我们的项目中使用一个模块来创建 liferay 主题。我使用命令 ant -Ddeploy.war=true 将它部署在服务器中。 war 文件在 liferay 部
ipython - 启动 IPython
我想在已安装 Python 2.7 的 Windows XP 计算机上运行 IPython(版本 0.12)。我通过 Windows 二进制安装程序安装，但安装后 IPython 没有显示在菜单中，
docker - 启动+卷挂载后在docker容器内自动运行命令
我从创建了自己的简单图片。 FROM python:2.7.11 RUN mkdir /extra/later/ \ && mkdir /yyy 现在，我可以执行以下步骤: docker run
javascript - 启动/停止脚本以刷新页面
$(document).ready(function () { setTimeout(function() { window.location.reload(); }, 2000); // 2
javascript - OpenWeatherMap 启动
我刚刚创建了一个帐户 OpenWeatherMap 我想通过城市 ID API 调用获取当前位置的天气: http://api.openweathermap.org/data/2.5/weather?
ios - 启动 Storyboard中的图像未更新
我注意到，如果我更改 xcasset 中的图像，启动 Storyboard不会更新。例如，假设您的启动 Storyboard中有一个 UIImage View ，其中包含一个名为“logo”的蓝色图

首页

博学

6Ren·AI

商城

c - 为什么只有少量线程启动？