c - 在优化中迷失/困惑-6ren

c - 在优化中迷失/困惑

转载作者：行者123 更新时间：2023-12-03 16:53:07

28

4

我刚刚完成了计算机图形学类(class)，我们必须对光线追踪器进行编程。尽管所有结果都是正确的，但我对 OpenMP 的使用感到困惑(顺便说一句，这不是类(class)的一部分)。我有这个循环(C++):

#pragma omp parallel for private(L, ray)
//  for (x = x_from; x < x_till; x++) {
//  printf("Col: %5d\n", x);
//  for (y = y_from; y < y_till; y++) {
  for (int xy = 0; xy < xy_range; xy++) {
    int x = x_from + (xy % x_width);
    int y = y_from + (xy / x_width);
        ray = cam->get_ray_at(x, y);
        L = trace_ray(ray, 0, cam->inter);
    #pragma omp critical
    cam->set_pixel(x, y, L);
  }
//  }
}

我尝试了很多配置。但最终让我最困惑的是，上面的版本，结合单一的，是所有版本中效率最低的(150 秒对单独的 x 和 y 为 120 秒。“关键”不会显着改变时间。

更多:虽然我希望单个 for 循环并行化每个单独的迭代，但事实并非如此。使用此方法，以 8 - 8 - 8 - 1(8 个核心)为一组执行 25 个循环。事实上，单独的 y 循环(在 list 中被注释掉)似乎可以更有效地分配负载。删除“parallel for”中的“for”确实有所改善略微(148 对 150 秒；)

此外，我尝试了本地定义与全局定义(使用必要的私有(private)编译指示)。我试图在循环内声明 L 和 ray。一切都无济于事...

我会很感激建议或指点...

这里有一些更精确的数据:

Single loop             Yes                     No                      No                      Yes    
'Critical"              No                      No                      Yes                     Yes
                ----------------------  ----------------------  ----------------------  ----------------------
                User    CPU     Mean    User    CPU     Mean    User    CPU     Mean    User    CPU     Mean
Scene 5         37.9    158.9   3.66    26.5    185.5   7.00    27.0    187.7   6.95    38.7    161.8   4.18
Scene 6         18.8    110     5.85    17.7    112     6.32    18.1    113.8   5.29    19.4    112.2   5.78
Scene 7         149     658.8   4.42    114     679.9   5.96    114     653.8   5.73    149     659.8   4.43
Plane           112.0   497.3   4.44    105     520.5   4.95    103.8   525     5.06    113.5   504.8   4.45     
5-balls         126     760.2   6.03    162.3   697.5   4.36    170.3   725.3   4.23    127.3   766.5   6.02

'Mean'是CPU/User，即核心占用的平均值。请注意，在某些情况下，平均值仅为 4.xx。

解决方案及结果:

Single loop             Yes                     No
                ----------------------  ----------------------
                User    CPU     Mean    User    CPU     Mean
Scene 5         23.9    190.1   7.95    24.4    190.7   7.82
Scene 6         14.3    114.2   7.98    14.5    114.9   7.92
Scene 7         85.5    675.9   7.91    106.9   698.8   6.54
Plane           72.7    579.1   7.97    72.6    578.4   7.97
5-balls         104.8   823.3   7.86    103.9   825.1   7.94

这个优秀的结果是通过将 schedule(dynamic, 1) 添加到#pragma omp parallel for line 是这样的:

#pragma omp parallel for schedule(dynamic, 1)

它查看内核的运行时负载分配(相对于编译时间)。

再注意一点，',1'参数是为了限制 block 。它可以省略，在这种情况下 openmp 使用默认值值(value)。也许加 1 会使负载分布过于细化，但在这种情况下，无论哪种方式我都找不到任何性能差异。我猜光线追踪任务太慢并且隐藏了任何管理开销。

最佳答案

我已经编写了一个 Whitted sytle 光线追踪器，它在 OpenCL 中对完整的光线树(反射和折射)进行操作。我还没有用 OpenMP 完成它，但这是我的下一个目标。如果你想学习 OpenMP，我会先从一些更简单的任务开始。但让我发表一些评论。

你是怎么安排时间的？您写道“删除‘parallel for’中的‘for’确实略有改善”。这是没有意义的。删除 for 将在每个线程上运行相同的代码，而不是将线程分布到不同的迭代(做一些 hello world 测试来证明这一点)。它应该更慢而不是更快。这让我想知道你是如何安排时间的。我添加了一些代码来展示如何进行计时。

您不必使用critical。如果每次迭代都写入不同的像素，那么就没有必要了。根据场景的复杂性，critical 可能会使速度变慢。

最后，要获得最佳性能，您还需要使用 SSE/AVX 并同时对多个像素进行操作。这可以通过所谓的基于数据包的光线追踪来完成。有关此 http://graphics.stanford.edu/~boulos/papers/cook_gi07.pdf 的良好讨论，请参阅以下链接

编辑:由于每个像素可能需要不同的时间，因此您希望使用 schedule(dynamic) 而不是通常(但不一定)默认的 schedule(static) 。查看代码。

Ingo Wald 的博士论文: http://www.sci.utah.edu/~wald/PhD/

double dtime = omp_get_wtime();
#pragma omp parallel
{
    Ray ray;
    Color L;
    #pragma omp for schedule(dynamic)
    for (int xy = 0; xy < xy_range; xy++) {
        int x = x_from + (xy % x_width);
        int y = y_from + (xy / x_width);
        ray = cam->get_ray_at(x, y);
        L = trace_ray(ray, 0, cam->inter);
        cam->set_pixel(x, y, L);
     }
}
dtime = omp_get_wtime() - dtime;
printf("time %f\n", dtime);

关于c - 在优化中迷失/困惑，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16402657/

28

4

0

文章推荐： windows - 当我输入结尾有空格的内容时，set/p 崩溃

文章推荐：两个着色器之间频繁交换的 OpenGL 性能开销

文章推荐： c - 如何优化这个 Langton's ant sim？

c++ - C c;之间有什么区别吗？和 C c = C();?
#include using namespace std; class C{ private: int value; public: C(){ value = 0;
c++ - C 风格字符串差异 : C/C++
这个问题已经有答案了: What is the difference between char a[] = ?string?; and char *p = ?string?;? (8 个回答) 已关闭
c++ - c\c++ 转换为 C#
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 7 年前。此帖子已于 8 个月
c# - C、C++、C# 的功能测试工具
除了调试之外，是否有任何针对 c、c++ 或 c# 的测试工具，其工作原理类似于将独立函数复制粘贴到某个文本框，然后在其他文本框中输入参数？最佳答案也许您会考虑单元测试。我推荐你谷歌测试和谷歌模拟
c# - C/C++/C# 在监视器上设置窗口位置
我想在第二台显示器中移动一个窗口 (HWND)。问题是我尝试了很多方法，例如将分辨率加倍或输入负值，但它永远无法将窗口放在我的第二台显示器上。关于如何在 C/C++/c# 中执行此操作的任何线索最
c# - C/C++/C#中的DES实现
我正在寻找 C/C++/C## 中不同类型 DES 的现有实现。我的运行平台是Windows XP/Vista/7。我正在尝试编写一个 C# 程序，它将使用 DES 算法进行加密和解密。我需要一些实
c# - 在条件中使用赋值是否安全？ C/C++、C#
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
c++ - C/C++/C# 强制窗口在最上面
有没有办法强制将另一个窗口置于顶部？不是应用程序的窗口，而是另一个已经在系统上运行的窗口。 (Windows, C/C++/C#) 最佳答案 SetWindowPos(that_window_ha
c# - 套接字服务器应用程序的选择 : C/C++ or C#
假设您可以在 C/C++ 或 Csharp 之间做出选择，并且您打算在 Windows 和 Linux 服务器上运行同一服务器的多个实例，那么构建套接字服务器应用程序的最明智选择是什么？最佳答案如
c++ - C/C++ 运行时库和 C/C++ 标准库的区别
你们能告诉我它们之间的区别吗？顺便问一下，有什么叫C++库或C库的吗？最佳答案 C++ 标准库和 C 标准库是 C++ 和 C 标准定义的库，提供给 C++ 和 C 程序使用。那是那些词的共同
c++ - &C::c 和 &(C::c) 有什么区别？
下面的测试代码，我将输出信息放在注释中。我使用的是 gcc 4.8.5 和 Centos 7.2。 #include #include class C { public:
c++ - 什么 C++(通用 (c/c++) 与 (通用 c)/c++ )
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
c# - 通过网络在 C/C++ 服务器、C/C++ 和 C# 客户端之间发送数据结构
我的客户将使用名为 annoucement 的结构/类与客户通信。我想我会用 C++ 编写服务器。会有很多不同的类继承annoucement。我的问题是通过网络将这些类发送给客户端我想也许我应该使用
c# - C/C++ - 如何将 Buffer.BlockCopy (C#) 转换为 C/C++
我在 C# 中有以下函数: public Matrix ConcatDescriptors(IList> descriptors) { int cols = descriptors[0].Co
c++ - C/C++ - 对其他人隐藏 C 或 C++ 函数代码
我有一个项目要编写一个函数来对某些数据执行某些操作。我可以用 C/C++ 编写代码，但我不想与雇主共享该函数的代码。相反，我只想让他有权在他自己的代码中调用该函数。是否可以？我想到了这两种方法 - 在
c# - 在托管代码(C++、C、C++/CLI、C#)中使用非托管代码时处理错误
我使用的是编写糟糕的第 3 方 (C/C++) Api。我从托管代码(C++/CLI)中使用它。有时会出现“访问冲突错误”。这使整个应用程序崩溃。我知道我无法处理这些错误[如果指针访问非法内存位置等，
c# - C#、C/C++ 或 Objective-C 中的眼动追踪库
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
c++ - C/C++/Objective-C 文本识别库
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
c# - 将 C/C++ 函数导入 C#
我有一些 C 代码，将使用 P/Invoke 从 C# 调用。我正在尝试为这个 C 函数定义一个 C# 等效项。 SomeData* DoSomething(); struct SomeData {
c - C语言中 "c -= --c - c++;"的结果应该是什么？
这个问题已经有答案了: Why are these constructs using pre and post-increment undefined behavior? (14 个回答) 已关闭 6

首页

博学

6Ren·AI

商城

c - 在优化中迷失/困惑