- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 OpenCL 中有一个项目。它是 GPU 上的矩阵分解。一切正常,结果也不错。我唯一看到的是,当我连续多次执行程序(大约每秒一次)时,将初始缓冲区写入设备时出现访问冲突。
它总是在写入缓冲区时卡住。我是 OpenCL 的新手,我想知道退出程序时是否必须清除 GPU 中的内存?有时它会在第一次运行时崩溃,但在尝试 2 或 3 次后会成功。话又说回来,有时是立即成功,以及随后的运行。这很随机。失败的实际缓冲区写入也时常不同。有时是第三次缓冲区写入失败,有时是第四次。
我运行这个程序的参数是一个工作组大小为 7 和一个 70*70 元素的矩阵。起初我认为可能是我的矩阵对于 GPU(2GB 的 GT650M)来说太大了,但有时使用 ox 10.000 个元素的矩阵运行也会成功。
缓冲区写入之前的代码如下。
非常感谢任何帮助。
Ps:为了清楚起见,PRECISION
是一个宏#define PRECISION float
。
int main(int argc, char *argv[])
{
////////////////////////////////////////////////////////////////////////////////////////////////////////////////
//// INITIALIZATION PART ///////////////////////////////////////////////////////////////////////////////////////
////////////////////////////////////////////////////////////////////////////////////////////////////////////////
try {
if (argc != 5) {
std::ostringstream oss;
oss << "Usage: " << argv[0] << " <kernel_file> <kernel_name> <workgroup_size> <array width>";
throw std::runtime_error(oss.str());
}
// Read in arguments.
std::string kernel_file(argv[1]);
std::string kernel_name(argv[2]);
unsigned int workgroup_size = atoi(argv[3]);
unsigned int array_dimension = atoi(argv[4]);
int total_matrix_length = array_dimension * array_dimension;
int total_workgroups = total_matrix_length / workgroup_size;
total_workgroups += total_matrix_length % workgroup_size == 0 ? 0 : 1;
// Print parameters
std::cout << "Workgroup size: " << workgroup_size << std::endl;
std::cout << "Total workgroups: " << total_workgroups << std::endl;
std::cout << "Array dimension: " << array_dimension << " x " << array_dimension << std::endl;
std::cout << "Total elements: " << total_matrix_length << std::endl;
// OpenCL initialization
std::vector<cl::Platform> platforms;
std::vector<cl::Device> devices;
cl::Platform::get(&platforms);
platforms[0].getDevices(CL_DEVICE_TYPE_GPU, &devices);
cl::Context context(devices);
cl::CommandQueue queue(context, devices[0], CL_QUEUE_PROFILING_ENABLE);
// Load the kernel source.
std::string file_text;
std::ifstream file_stream(kernel_file.c_str());
if (!file_stream) {
std::ostringstream oss;
oss << "There is no file called " << kernel_file;
throw std::runtime_error(oss.str());
}
file_text.assign(std::istreambuf_iterator<char>(file_stream), std::istreambuf_iterator<char>());
// Compile the kernel source.
std::string source_code = file_text;
std::pair<const char *, size_t> source(source_code.c_str(), source_code.size());
cl::Program::Sources sources;
sources.push_back(source);
cl::Program program(context, sources);
try {
program.build(devices);
}
catch (cl::Error& e) {
getchar();
std::string msg;
program.getBuildInfo<std::string>(devices[0], CL_PROGRAM_BUILD_LOG, &msg);
std::cerr << "Your kernel failed to compile" << std::endl;
std::cerr << "-----------------------------" << std::endl;
std::cerr << msg;
throw(e);
}
////////////////////////////////////////////////////////////////////////////////////////////////////////////////
//// CREATE RANDOM INPUT DATA //////////////////////////////////////////////////////////////////////////////////
////////////////////////////////////////////////////////////////////////////////////////////////////////////////
// Create matrix to work on.
// Create a random array.
int matrix_width = sqrt(total_matrix_length);
PRECISION* random_matrix = new PRECISION[total_matrix_length];
random_matrix = randommatrix(total_matrix_length);
PRECISION* A = new PRECISION[total_matrix_length];
for (int i = 0; i < total_matrix_length; i++)
A[i] = random_matrix[i];
PRECISION* L_SEQ = new PRECISION[total_matrix_length];
PRECISION* U_SEQ = new PRECISION[total_matrix_length];
PRECISION* P_SEQ = new PRECISION[total_matrix_length];
// Do the sequential algorithm.
decompose(A, L_SEQ, U_SEQ, P_SEQ, matrix_width);
float* PA = multiply(P_SEQ, A, total_matrix_length);
float* LU = multiply(L_SEQ, U_SEQ, total_matrix_length);
std::cout << "PA = LU?" << std::endl;
bool eq = equalMatrices(PA, LU, total_matrix_length);
std::cout << eq << std::endl;
////////////////////////////////////////////////////////////////////////////////////////////////////////////////
//// RUN AND SETUP KERNELS /////////////////////////////////////////////////////////////////////////////////////
////////////////////////////////////////////////////////////////////////////////////////////////////////////////
// Initialize arrays for GPU.
PRECISION* L_PAR = new PRECISION[total_matrix_length];
PRECISION* U_PAR = new PRECISION[total_matrix_length];
PRECISION* P_PAR = new PRECISION[total_matrix_length];
PRECISION* ROW_IDX = new PRECISION[matrix_width];
PRECISION* ROW_VAL = new PRECISION[matrix_width];
// Write A to U and initialize P.
for (int i = 0; i < total_matrix_length; i++)
U_PAR[i] = A[i];
// Initialize P_PAR.
for (int row = 0; row < matrix_width; row++)
{
for (int i = 0; i < matrix_width; i++)
IDX(P_PAR, row, i) = 0;
IDX(P_PAR, row, row) = 1;
}
// Allocate memory on the device
cl::Buffer P_BUFF(context, CL_MEM_READ_WRITE, total_matrix_length*sizeof(PRECISION));
cl::Buffer L_BUFF(context, CL_MEM_READ_WRITE, total_matrix_length*sizeof(PRECISION));
cl::Buffer U_BUFF(context, CL_MEM_READ_WRITE, total_matrix_length*sizeof(PRECISION));
// Buffer to determine maximum row value.
cl::Buffer MAX_ROW_IDX_BUFF(context, CL_MEM_READ_WRITE, total_workgroups*sizeof(PRECISION));
cl::Buffer MAX_ROW_VAL_BUFF(context, CL_MEM_READ_WRITE, total_workgroups*sizeof(PRECISION));
// Create the actual kernels.
cl::Kernel kernel(program, kernel_name.c_str());
std::string max_row_kernel_name = "max_row";
cl::Kernel max_row(program, max_row_kernel_name.c_str());
std::string swap_row_kernel_name = "swap_row";
cl::Kernel swap_row(program, swap_row_kernel_name.c_str());
// transfer source data from the host to the device
std::cout << "Writing buffers" << std::endl;
queue.enqueueWriteBuffer(P_BUFF, CL_TRUE, 0, total_matrix_length*sizeof(PRECISION), P_PAR);
queue.enqueueWriteBuffer(L_BUFF, CL_TRUE, 0, total_matrix_length*sizeof(PRECISION), L_PAR);
queue.enqueueWriteBuffer(U_BUFF, CL_TRUE, 0, total_matrix_length*sizeof(PRECISION), U_PAR);
queue.enqueueWriteBuffer(MAX_ROW_IDX_BUFF, CL_TRUE, 0, total_workgroups*sizeof(PRECISION), ROW_IDX);
queue.enqueueWriteBuffer(MAX_ROW_VAL_BUFF, CL_TRUE, 0, total_workgroups*sizeof(PRECISION), ROW_VAL);
当我连接到调试器时,我得到的完整错误如下:
Unhandled exception at 0x55903CC0 (nvopencl.dll) in Project.exe:
0xC0000005: Access violation reading location 0x0068F004.
If there is a handler for this exception, the program may be safely continued.
调试器向我显示的函数如下,在命名空间 cl
中:
cl_int enqueueWriteBuffer(
const Buffer& buffer,
cl_bool blocking,
::size_t offset,
::size_t size,
const void* ptr,
const VECTOR_CLASS<Event>* events = NULL,
Event* event = NULL) const
{
return detail::errHandler(
::clEnqueueWriteBuffer(
object_, buffer(), blocking, offset, size,
ptr,
(events != NULL) ? (cl_uint) events->size() : 0,
(events != NULL && events->size() > 0) ? (cl_event*) &events->front() : NULL,
(cl_event*) event),
__ENQUEUE_WRITE_BUFFER_ERR);
编辑:完整来源 here .
最佳答案
看看这些行:
PRECISION* ROW_IDX = new PRECISION[matrix_width];
...
cl::Buffer MAX_ROW_IDX_BUFF(context, CL_MEM_READ_WRITE, total_workgroups*sizeof(PRECISION));
...
queue.enqueueWriteBuffer(MAX_ROW_IDX_BUFF, CL_TRUE, 0, total_workgroups*sizeof(PRECISION), ROW_IDX);
因此,您尝试将 total_workgroups
元素写入缓冲区,但您的源数组只分配了 matrix_width
元素。对于您提到的输入参数(工作组大小为 7 的 70x70 数组),这将尝试从 70*4
中读取 700*4
字节的数据字节数组 - 明确的内存访问冲突。
稍后在您的代码中,您从同一个缓冲区读取到同一个主机数组,这将破坏内存并导致各种其他崩溃和无法解释的行为,当我在我自己的系统上运行您的代码时。
关于c++ - 将缓冲区写入设备时发生 OpenCL 访问冲突,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26682673/
iphone设备UDID、iphone设备ID和iphone设备Token之间有什么区别? 通常,当我们使用苹果推送通知服务时,会使用 iPhone 设备 token 。 但我的目标只是识别唯一的 i
我们使用 firebase 从服务器向 Android 和 IOS 设备发送通知,并且我们使用旧版 FCM 发送通知。但是当我们的应用程序在后台时,通知由系统本身处理,因此我们无法通过应用程序处理它。
在 Google 上搜索后,我发现人们说只能通过“MFi 程序”将 iOS 设备与非 iOS 设备连接起来。这是真的吗? 我的项目主要集中于直接通过蓝牙与Arduino设备发送和接收信息。 iOS和非
所以我有一个通用应用程序,我正在设置 UIScrollView 的内容大小。显然,iPhone 和 iPad 上的内容大小会有所不同。如何为 iPad 设置某种尺寸,为 iPhone 和 iPod t
问题:如何在 pod 中使用连接到主机的原始设备作为 block 设备。 我尝试使用类型为“BlockDevice”的“hostPath” volumes: - my-data: hostPath
Implemented GCKDeviceScannerListener Singleton Class on ViewController, however its delegate methods
我有一个 (PhoneGap) 应用程序,它将成功获得 Passbook 通行证,并且还将成功接收与 Passbook 分开的推送通知(当伪造设备 ID 时)。 我遇到的问题是发送给注册设备的设备 I
我正在尝试找到一种方法,通过我目前正在使用的 iOS 应用程序访问我的信标的电池电量。我正在使用 Kontakt 的 iBeacon 设备。我浏览了 Estimote iOS SDK,他们提供了一种实
我正在努力让 CUDA 应用程序也能监控 GPU 的核心温度。可通过 NVAPI 访问该信息。 问题是我想确保在运行代码时监控的是同一个 GPU。 但是,似乎有信息表明我从 NvAPI_EnumPhy
从沙箱模式到生产模式,设备 token 有何不同? 我认为我已将一些设备 token 锁定为生产模式,并且无法将它们从开发中插入。 关于如何检查有什么想法吗? 最佳答案 当您使用开发证书构建应用程序时
目录 /run/user/1000/gvfs 和 ~/.gvfs 分别是空的和不存在的。我的图形文件管理器 (Thunar) 能够检测和访问设备的内部和外部存储器。 命令 gvfs-mount -l
我有一个 Android 平板电脑,它有一个迷你 USB 端口和一个 USB 端口,我想编写一个与 USB key 通信的应用程序。我写了一个demo来找出U盘,但是没有任何反应。 令我不安的是,如果
我们将 PHP 版本从 5.4.25 更改为 5.4.45,并在服务器上安装了 MS SQL 驱动程序。在更改服务器之前,一切正常,但在更改服务器之后,我遇到了 Web 服务问题。我们的身份验证 So
我想知道是否有人使用此 API 在 Android 设备上同时从 2 个后置摄像头捕获图像或视频:https://source.android.com/docs/core/camera/concurr
我正在为客户构建一个物联网解决方案,网络管理员坚持要求设备仅通过访客网络进行连接,该网络有一个强制门户,其中的服务条款必须通过按下 UI 按钮来接受,然后才能获得外部互联网访问。到目前为止,我见过的大
我无法弄清楚这里的格式规则..在我的示例中,代码行太多,无法为每行添加 4 个空格,因此这里是我需要帮助的代码的链接 http://nitemsg.blogspot.com/2011/01/heres
如果我在我的设备上接受推送通知,并且不保存设备 token ,那么我如何在自定义 View 中查看设备 token 或恢复警报 View ? 我删除了应用程序并重新安装,但看不到设备 token 警报
我试图找出在尝试并行比较和复制设备 block 与 pthreads 时我做错了什么。看起来我正在脱离同步并且比较阶段无法正常工作。任何帮助将不胜感激 #ifndef __dbg_h__ #defin
我刚刚写完所有这些内容,但这个红色的小栏告诉我我不能发布图片或两个以上的链接。因此,如果您可以引用 this Imgur album , 那简直太好了。谢谢。 我在这里相对较新,甚至对 android
我需要启用 mysql 常规日志并将其通过 nsf 移动到我系统中的另一个驱动器/设备! 所以,我在 my.cnf 中启用了它: general_log = 1 general_log_fi
我是一名优秀的程序员,十分优秀!