- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们正在考虑将应用程序从专用数字信号处理芯片移植到通用 x86 硬件上运行。该应用程序执行大量傅里叶变换,从简短的研究来看,FFT 似乎非常适合在 GPU 而不是 CPU 上进行计算。例如,本页有一些使用 Core 2 Quad 和 GF 8800 GTX 的基准测试,显示使用 GPU 时计算时间减少了 10 倍:
http://www.cv.nrao.edu/~pdemores/gpu/
但是,在我们的产品中,尺寸限制限制了我们只能使用 PC104 或 Mini-ITX 等小型设备,因此只能使用相当有限的嵌入式 GPU。
将计算卸载到 GPU 是否只值得在适当的 PCIe 总线上使用强大的显卡来完成,或者甚至嵌入式 GPU 会提供性能改进吗?
最佳答案
在 x86 硬件和 GPU(CUDA 之前,7800 GTX Hardware)上开发 FFT 例程后,我从自己的结果中发现,FFT 尺寸较小(低于 2^13)时,CPU 速度更快。超过这些尺寸,GPU 速度更快。例如,2^16 大小的 FFT 在 GPU 上的计算速度比 CPU 上的等效变换快 2-4 倍。请参阅下面的时间表(所有时间均以秒为单位,比较 3GHz Pentium 4 与 7800GTX。这项工作是在 2005 年完成的,所以硬件很旧,正如我所说,非 CUDA。较新的库可能会显示出更大的改进)
N FFTw (s) GPUFFT (s) GPUFFT MFLOPS GPUFFT Speedup8 0 0.00006 3.352705 0.00688116 0.000001 0.000065 7.882117 0.01021732 0.000001 0.000075 17.10887 0.01469564 0.000002 0.000085 36.080118 0.026744128 0.000004 0.000093 76.724324 0.040122256 0.000007 0.000107 153.739856 0.066754512 0.000015 0.000115 320.200892 0.1346141024 0.000034 0.000125 657.735381 0.2705122048 0.000076 0.000156 1155.151507 0.4843314096 0.000173 0.000215 1834.212989 0.8045588192 0.000483 0.00032 2664.042421 1.51001116384 0.001363 0.000605 3035.4551 2.25541132768 0.003168 0.00114 3450.455808 2.78004165536 0.008694 0.002464 3404.628083 3.528726131072 0.015363 0.005027 3545.850483 3.05604262144 0.033223 0.012513 3016.885246 2.655183524288 0.072918 0.025879 3079.443664 2.8176671048576 0.173043 0.076537 2192.056517 2.2609042097152 0.331553 0.157427 2238.01491 2.1060814194304 0.801544 0.430518 1715.573229 1.861814
正如其他发帖者所建议的那样,与 GPU 之间的数据传输就是您所承受的损失。较小的 FFT 可以在 CPU 上执行,某些实现/大小完全在缓存中执行。这使得 CPU 成为小型 FFT(低于约 1024 点)的最佳选择。另一方面,如果您需要以最少的进出 GPU 的移动量对数据执行大批量工作,那么 GPU 将轻松击败 CPU。
如果您想要快速的 FFT 实现,我建议使用 FFTW;如果您想要更快的(商业)实现,我建议使用英特尔数学库。对于 FFTW,使用 FFTW_Measure 标志执行计划将为您的特定硬件测量和测试最快的 FFT 例程。我在this question中对此进行了详细介绍。 。
对于 GPU 实现,没有比 NVidia CUDA 提供的更好的了。自从我在 7800GTX 上进行实验以来,GPU 的性能已显着提高,因此我建议您尝试使用他们的 SDK 来满足您的特定要求。
关于embedded - 是否值得将 FFT 计算卸载到嵌入式 GPU?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8158632/
我有一个 if 语句,如下所示 if (not(fullpath.lower().endswith(".pdf")) or not (fullpath.lower().endswith(tup
然而,在 PHP 中,可以: only appears if $foo is true. only appears if $foo is false. 在 Javascript 中,能否在一个脚
XML有很多好处。它既是机器可读的,也是人类可读的,它具有标准化的格式,并且用途广泛。 它也有一些缺点。它是冗长的,不是传输大量数据的非常有效的方法。 XML最有用的方面之一是模式语言。使用模式,您可
由于长期使用 SQL2000,我并没有真正深入了解公用表表达式。 我给出的答案here (#4025380)和 here (#4018793)违背了潮流,因为他们没有使用 CTE。 我很欣赏它们对于递
我有一个应用程序: void deleteObj(id){ MyObj obj = getObjById(id); if (obj == null) { throw n
我的代码如下。可能我以类似的方式多次使用它,即简单地说,我正在以这种方式管理 session 和事务: List users= null; try{ sess
在开发J2EE Web应用程序时,我通常会按以下方式组织我的包结构 com.jameselsey.. 控制器-控制器/操作转到此处 服务-事务服务类,由控制器调用 域-应用程序使用的我的域类/对象 D
这更多是出于好奇而不是任何重要问题,但我只是想知道 memmove 中的以下片段文档: Copying takes place as if an intermediate buffer were us
路径压缩涉及将根指定为路径上每个节点的新父节点——这可能会降低根的等级,并可能降低路径上所有节点的等级。有办法解决这个问题吗?有必要处理这个吗?或者,也许可以将等级视为树高的上限而不是确切的高度? 谢
我有两个类,A 和 B。A 是 B 的父类,我有一个函数接收指向 A 类型类的指针,检查它是否也是 B 类型,如果是将调用另一个函数,该函数接受一个指向类型 B 的类的指针。当函数调用另一个函数时,我
有没有办法让 valgrind 使用多个处理器? 我正在使用 valgrind 的 callgrind 进行一些瓶颈分析,并注意到我的应用程序中的资源使用行为与在 valgrind/callgrind
假设我们要使用 ReaderT [(a,b)]超过 Maybe monad,然后我们想在列表中进行查找。 现在,一个简单且不常见的方法是: 第一种可能性 find a = ReaderT (looku
我的代码似乎有问题。我需要说的是: if ( $('html').attr('lang').val() == 'fr-FR' ) { // do this } else { // do
根据this文章(2018 年 4 月)AKS 在可用性集中运行时能够跨故障域智能放置 Pod,但尚不考虑更新域。很快就会使用更新域将 Pod 放入 AKS 中吗? 最佳答案 当您设置集群时,它已经自
course | section | type comart2 : bsit201 : lec comart2 :
我正在开发自己的 SDK,而这又依赖于某些第 3 方 SDK。例如 - OkHttp。 我应该将 OkHttp 添加到我的 build.gradle 中,还是让我的 SDK 用户包含它?在这种情况下,
随着 Rust 越来越充实,我对它的兴趣开始激起。我喜欢它支持代数数据类型,尤其是那些匹配的事实,但是对其他功能习语有什么想法吗? 例如标准库中是否有标准过滤器/映射/归约函数的集合,更重要的是,您能
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 9 年前。 Improve
我一直在研究 PHP 中的对象。我见过的所有示例甚至在它们自己的对象上都使用了对象构造函数。 PHP 会强制您这样做吗?如果是,为什么? 例如: firstname = $firstname;
...比关联数组? 关联数组会占用更多内存吗? $arr = array(1, 1, 1); $arr[10] = 1; $arr[] = 1; // <- index is 11; does the
我是一名优秀的程序员,十分优秀!