android - glsl编程架构哪一部分是 "really"并行执行？-6ren

android - glsl编程架构哪一部分是 "really"并行执行？

转载作者：行者123 更新时间：2023-11-29 17:56:38

26

4

我正在尝试使用 glsl 在 GPU 中实现图像处理算法，如高斯滤波、双边滤波。

我对哪一部分是“真正的”并行执行感到困惑。例如，我有一个 1280*720 的预览作为纹理。我不太确定哪个部分真正运行了 1280*720 次，哪个部分不是。

glsl代码的调度机制是什么？

我的高斯滤波代码是这样的:

#extension GL_OES_EGL_image_external : require
precision mediump float;
varying vec2 vTextureCoord;
uniform samplerExternalOES sTexture;
uniform sampler2D sTextureMask;

void main() {

float r=texture2D(sTexture, vTextureCoord).r;
float g=texture2D(sTexture, vTextureCoord).g;
float b=texture2D(sTexture, vTextureCoord).b;

// a test sample
float test=1.0*0.5;

float width=1280.0;
float height=720.0;

vec4 sum;   

//offsets of a 3*3 kernel
vec2 offset0=vec2(-1.0,-1.0); vec2 offset1=vec2(0.0,-1.0); vec2 offset2=vec2(1.0,-1.0);
vec2 offset3=vec2(-1.0,0.0); vec2 offset4=vec2(0.0,0.0); vec2 offset5=vec2(1.0,0.0);
vec2 offset6=vec2(-1.0,1.0); vec2 offset7=vec2(0.0,1.0); vec2 offset8=vec2(1.0,1.0); 

//gaussina kernel with sigma==100.0;
float kernelValue0 = 0.999900; float kernelValue1 = 0.999950; float kernelValue2 = 0.999900;
float kernelValue3 = 0.999950; float kernelValue4 =1.000000; float kernelValue5 = 0.999950;
float kernelValue6 = 0.999900; float kernelValue7 = 0.999950; float kernelValue8 = 0.999900;

vec4 cTemp0;vec4 cTemp1;vec4 cTemp2;vec4 cTemp3;vec4 cTemp4;vec4 cTemp5;vec4 cTemp6;vec4 cTemp7;vec4 cTemp8;



//getting 3*3 pixel values around current pixel
vec2 src_coor_2;
src_coor_2=vec2(vTextureCoord[0]+offset0.x/width,vTextureCoord[1]+offset0.y/height);
cTemp0=texture2D(sTexture, src_coor_2);
src_coor_2=vec2(vTextureCoord[0]+offset1.x/width,vTextureCoord[1]+offset1.y/height);
cTemp1=texture2D(sTexture, src_coor_2);
src_coor_2=vec2(vTextureCoord[0]+offset2.x/width,vTextureCoord[1]+offset2.y/height);
cTemp2=texture2D(sTexture, src_coor_2);
src_coor_2=vec2(vTextureCoord[0]+offset3.x/width,vTextureCoord[1]+offset3.y/height);
cTemp3=texture2D(sTexture, src_coor_2);
src_coor_2=vec2(vTextureCoord[0]+offset4.x/width,vTextureCoord[1]+offset4.y/height);
cTemp4=texture2D(sTexture, src_coor_2);
src_coor_2=vec2(vTextureCoord[0]+offset5.x/width,vTextureCoord[1]+offset5.y/height);
cTemp5=texture2D(sTexture, src_coor_2);
src_coor_2=vec2(vTextureCoord[0]+offset6.x/width,vTextureCoord[1]+offset6.y/height);
cTemp6=texture2D(sTexture, src_coor_2);
src_coor_2=vec2(vTextureCoord[0]+offset7.x/width,vTextureCoord[1]+offset7.y/height);
cTemp7=texture2D(sTexture, src_coor_2);
src_coor_2=vec2(vTextureCoord[0]+offset8.x/width,vTextureCoord[1]+offset8.y/height);
cTemp8=texture2D(sTexture, src_coor_2);

//convolution
sum =kernelValue0*cTemp0+kernelValue1*cTemp1+kernelValue2*cTemp2+
    kernelValue3*cTemp3+kernelValue4*cTemp4+kernelValue5*cTemp5+
    kernelValue6*cTemp6+kernelValue7*cTemp7+kernelValue8*cTemp8; 

float factor=kernelValue0+kernelValue1+kernelValue2+kernelValue3+kernelValue4+kernelValue5+kernelValue6+kernelValue7+kernelValue8;

gl_FragColor = sum/factor;
//gl_FragColor=texture2D(sTexture, vTextureCoord);

}

此代码在我的手机 (galaxy nexus) 上以较低的 fps 运行纯预览。

但是如果我将代码的最后一部分更改为使用原始像素值直接输出，例如

    //gl_FragColor = sum/factor;
gl_FragColor=texture2D(sTexture, vTextureCoord);

它会运行得很快，并且 fps 与纯预览相同。

问题是:我为测试而写的东西一开始没用，比如:

float test=1.0*0.5;

执行了多少次？

其他部分如:

sum =kernelValue0*cTemp0+kernelValue1*cTemp1+kernelValue2*cTemp2+
    kernelValue3*cTemp3+kernelValue4*cTemp4+kernelValue5*cTemp5+
    kernelValue6*cTemp6+kernelValue7*cTemp7+kernelValue8*cTemp8;

刚改的时候不会跑1280*720次

gl_FragColor = sum/factor;

到 gl_FragColor=texture2D(sTexture, vTextureCoord);?

决定运行 1280*720 次的机制是如何决定的，当像素并行时，这是无用的？是自动完成的吗？

glsl 程序的架构、调度、它如何将数据组织到 GPU 以及其他方面？

我想知道我应该如何处理更复杂的操作，如双边滤波和内核大小，如 9*9 和每像素 9 次，而不是这个 3*3 高斯内核。

最佳答案

对于每个 fragment ，整个 fragment 着色器代码作为一个整体执行。如果没有对输出像素进行抗锯齿处理，或者对帧缓冲区的样本进行多重采样抗锯齿处理，则 fragment 近似。 fragment 到底是什么，OpenGL 规范没有详细说明，除了它是 fragment 阶段的输出，然后将其转换为帧缓冲区位平面上的值。

The rasterizer produces a series of framebuffer addresses and values using a two-dimensional description of a point, line segment, or polygon. Each fragment so produced is fed to the next stage that performs operations on individual fragments before they ﬁnally alter the framebuffer. These operations include

[OpenGL-3.3 核心规范，第 2.4 节]

would not run 1280*720 times just when I change
gl_FragColor = sum/factor;
to
gl_FragColor=texture2D(sTexture, vTextureCoord);?

除法是一项成本高昂且复杂的操作。由于内核的总和是一个常数，并且每个 fragment 都不会改变，因此您不应该在着色器中对其进行评估。在 CPU 上对其进行评估，并提供 1./factor 作为统一变量(对于所有 fragment 都是一个常数)，然后将其与 sum 相乘，这比除法快得多。

你的高斯核实际上是一个 3×3 矩阵，在 GLSL 中有专门的类型。您执行的计算可以根据点积(数学上正确的术语应该是标量或内积)重写，GPU 有专门的加速指令。

此外，您不应该将纹理的组件拆分为单独的 float 。

总而言之，您在代码中设置了很多减速带。

关于android - glsl编程架构哪一部分是 "really"并行执行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18848209/

26

4

0

文章推荐： android - 使用带有 Tab 的 Activitygroup 未显示第二个 Activity

文章推荐： mysql - 尝试为 zencart 运行 SQL 查询时出现意外 token 问题

文章推荐： javascript - 在 Protractor 中测试 Material 设计元素

文章推荐： Javascript Countdown Timer Repeat 和 Count total 重复次数

Kubernetes 架构
是否可以简化在裸机上运行的这条链: 具有随时间变化的副本数的 StatefulSet 服务使用 proxy-next-upstream: "error http_502 timeout invali
Facebook 架构
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
MySQL产品存储-架构
我需要为应用程序制定架构。它专为销售产品而设计。系统每天将接受大约 30-40k 的新产品。它将导致在表 product 中创建新记录。系统应保留价格历史记录。用户应该能够看到产品 A 的价格在去
PHP 架构 : How do I do that?
我需要一些帮助来理解 PHP 的内部工作原理。还记得，在过去，我们曾经写过 TSR(Terminate and stay resident)例程(pre-windows 时代)吗？一旦该程序被执行，
让我一起浅析Nginx 架构
1.Nginx 基础架构 nginx 启动后以 daemon 形式在后台运行，后台进程包含一个 master 进程和多个 worker 进程。如下图所示： master与
K8s技术全景：架构、应用与优化
本文深入探讨了Kubernetes（K8s）的关键方面，包括其架构、容器编排、网络与存储管理、安全与合规、高可用性、灾难恢复以及监控与日志系统。关注【TechLeadCloud】，
tensorflow - 如何为任何通用数据集确定卷积神经网络的结构/架构？
我知道 CNN 的工作原理，包括每一层的用途(Dropout、Pooling 等)。但是，在为新数据集设计 CNN 时，我不知道要使用多少个 Conv-Relu-Pool 层，在最终获得输出之前我应该
REST 架构 - 资源和方法
在基于 REST 的架构中，资源和方法之间有什么区别。有吗？最佳答案资源是您的应用程序定义的东西；它们与物体非常相似。方法是 HTTP 动词之一，例如 GET、POST、PUT、DELETE。它们
Json 架构 "not in"枚举类型？
我想用 oneOf仅在 xyType 的值上不同的模式属性(property)。我想要其中两个:一个是 xyType设置为 "1"第二个在哪里xyType是任何其他值 .这可以使用 json 模式完
PHP 架构，以及按引用传递与按值传递
寻求 PHP 架构师的建议! 我对 PHP 不是很熟悉，但已经接管了一个用该语言编写的大型分析包的维护工作。该架构旨在将报告的数据读取到大型键/值数组中，这些数组通过各种解析模块传递，以提取每个模块已
JavaScript 架构/应用程序结构最佳实践？
这些存在吗？多年来，我一直是大型强类型面向对象语言(Java 和 C#)的奴隶，并且是 Martin Fowler 及其同类的信徒。 Javascript，由于它的松散类型和函数性质，似乎不适合我习
Lambda 架构 - 这个名字的由来是什么？
我已经阅读了 Manning 的 Big Data Lambda Architecture ( http://www.manning.com/marz/BD_meap_ch01.pdf )，但仍然无法
xcode - 高级应用程序设计/架构
在过去的几年里，我做了相当多的 iOS 开发，所以我非常熟悉 iOS 架构和应用程序设计(一切都是一个 ViewController，您可以将其推送、弹出或粘贴到选项卡栏中)。我最近开始探索正确的 M
javascript - AngularJS 架构
我有以下应用程序，我在其中循环一些数据并显示它。 {{thing.title}} {{thing.description}}
c# - 架构/设计模式问题
昨天我和我的伙伴讨论了我正在开发的这个电子购物网站的架构。请注意，我为此使用 ASP.NET。他非常惊讶地发现我没有将添加到购物车的项目保留在 ArrayList 或其他通用列表中，而是使用 LINQ
tridion - 隐藏继承的内容/架构
我正在使用在 tridion 蓝图层次结构中处于较低位置的出版物。从蓝图中较高级别的出版物继承的一些内容和模式不适合我的出版物，并且永远不会被我的出版物使用。我将跟进添加这些项目的内部团队，并尝试说
java - Cassandra 架构
我目前已经在 Cassandra 中设计了一个架构，但我想知道是否有更好的方法来做事情。基本上，问题在于大多数(如果不是全部)读取都是动态的。我构建了一个分段系统作为应用程序服务，读取动态自定义查询(
Icinga2 IDO 架构
我正在按照 documentation 中给出的 icingaweb UI v 2.0 布局执行在服务器上设置 icinga 的步骤。。我成功进入设置页面，该页面要求您输入 token ，然后按照步
java - Mongodb 架构
我必须保存来自不同社交媒体的用户的不同个人资料。例如用户可能有 1 个 Facebook 和 2 个 Twitter 个人资料。如果我保存每个配置文件它作为新文档插入不同的集合中，例如 faceboo
适用于多个应用程序的多个环境的 Puppet 架构
我的团队使用 Puppet 架构，该架构目前可在多个环境(流浪者、暂存、生产)中容纳单个应用程序。我们现在想要扩展此设置的范围以支持其他应用程序。他们中的许多人将使用我们已经定义的现有模块的子集，而

首页

博学

6Ren·AI

商城

android - glsl编程架构哪一部分是 "really"并行执行？