- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们正在考虑将应用程序从专用数字信号处理芯片移植到通用 x86 硬件上运行。该应用程序执行大量傅里叶变换,从简短的研究来看,FFT 似乎非常适合在 GPU 而不是 CPU 上进行计算。例如,本页有一些使用 Core 2 Quad 和 GF 8800 GTX 的基准测试,显示使用 GPU 时计算时间减少了 10 倍:
http://www.cv.nrao.edu/~pdemores/gpu/
但是,在我们的产品中,尺寸限制限制了我们只能使用 PC104 或 Mini-ITX 等小型设备,因此只能使用相当有限的嵌入式 GPU。
将计算卸载到 GPU 是否只值得在适当的 PCIe 总线上使用强大的显卡来完成,或者甚至嵌入式 GPU 会提供性能改进吗?
最佳答案
在 x86 硬件和 GPU(CUDA 之前,7800 GTX Hardware)上开发 FFT 例程后,我从自己的结果中发现,FFT 尺寸较小(低于 2^13)时,CPU 速度更快。超过这些尺寸,GPU 速度更快。例如,2^16 大小的 FFT 在 GPU 上的计算速度比 CPU 上的等效变换快 2-4 倍。请参阅下面的时间表(所有时间均以秒为单位,比较 3GHz Pentium 4 与 7800GTX。这项工作是在 2005 年完成的,所以硬件很旧,正如我所说,非 CUDA。较新的库可能会显示出更大的改进)
N FFTw (s) GPUFFT (s) GPUFFT MFLOPS GPUFFT Speedup8 0 0.00006 3.352705 0.00688116 0.000001 0.000065 7.882117 0.01021732 0.000001 0.000075 17.10887 0.01469564 0.000002 0.000085 36.080118 0.026744128 0.000004 0.000093 76.724324 0.040122256 0.000007 0.000107 153.739856 0.066754512 0.000015 0.000115 320.200892 0.1346141024 0.000034 0.000125 657.735381 0.2705122048 0.000076 0.000156 1155.151507 0.4843314096 0.000173 0.000215 1834.212989 0.8045588192 0.000483 0.00032 2664.042421 1.51001116384 0.001363 0.000605 3035.4551 2.25541132768 0.003168 0.00114 3450.455808 2.78004165536 0.008694 0.002464 3404.628083 3.528726131072 0.015363 0.005027 3545.850483 3.05604262144 0.033223 0.012513 3016.885246 2.655183524288 0.072918 0.025879 3079.443664 2.8176671048576 0.173043 0.076537 2192.056517 2.2609042097152 0.331553 0.157427 2238.01491 2.1060814194304 0.801544 0.430518 1715.573229 1.861814
正如其他发帖者所建议的那样,与 GPU 之间的数据传输就是您所承受的损失。较小的 FFT 可以在 CPU 上执行,某些实现/大小完全在缓存中执行。这使得 CPU 成为小型 FFT(低于约 1024 点)的最佳选择。另一方面,如果您需要以最少的进出 GPU 的移动量对数据执行大批量工作,那么 GPU 将轻松击败 CPU。
如果您想要快速的 FFT 实现,我建议使用 FFTW;如果您想要更快的(商业)实现,我建议使用英特尔数学库。对于 FFTW,使用 FFTW_Measure 标志执行计划将为您的特定硬件测量和测试最快的 FFT 例程。我在this question中对此进行了详细介绍。 。
对于 GPU 实现,没有比 NVidia CUDA 提供的更好的了。自从我在 7800GTX 上进行实验以来,GPU 的性能已显着提高,因此我建议您尝试使用他们的 SDK 来满足您的特定要求。
关于embedded - 是否值得将 FFT 计算卸载到嵌入式 GPU?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8158632/
1.使用start-all.sh启动hadoop服务时,提示输入 您确定要继续连接吗(是/否) 当我通过脚本启动它时如何抑制这个提示,现在我正在使用期望模块,但我认为可能有一种更简单的方法来做到这一点
我安装了在 Ubuntu 12.04 下运行的 Geonode R 2.01。我尝试使用以下命令卸载它: sudo apt-get remove --purge geonode sudo apt-ge
假设我有 AppDomainA,它启动 AppDomainB。 AppDomainB 然后启动 AppDomainC。 如果在 AppDomainA 中卸载 AppDomainB,AppDomainC
关闭。这个问题是off-topic .它目前不接受答案。 想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
我尝试使用以下命令从我的 Ubuntu 中卸载 NGinX: sudo apt-get remove nginx-core nginx-full nginx-light nginx-extras n
我已经从 /Applications/ 中删除了 MacVim目录,但当我输入 vim 时在终端中显示错误:no such file or directory: /Applications/MacVi
我的页面中有一个 iframe,该 iframe 嵌入了一个不在我的服务器上的网站。 我正在寻找一种在 iframe 重定向之前触发函数的方法。例如,当用户单击 iframe 内的链接并且 ifram
看来我被 Visual Studio 的 Atomineer Pro 文档加载项挟持了!试用期结束了,我没有用了!但现在每次我在 Visual Studio 中做某事时,我都会收到一条错误消息并发送到
我有一个使用 WiX 完成的安装程序。安装完成后,它会启动一个应用程序,在 Explorer 进程中注入(inject)一些代码。 目前,当我卸载时,重新启动管理器会启动并关闭我的应用程序和资源管理器
在我的网络应用中,我需要在用户离开页面之前发送他们更改的最新数据。 我在页面卸载时调用这样的函数: window.onbeforeunload=sendData; 这就是函数内部调用的内容 funct
我使用 jQuery 和 history.js 来管理部分页面之间的动态转换;这样我就可以避免重新加载整个文档。其中一些部分页面调用自己独特的 javascript 文件。虽然页面之间的转换运行良好,
我需要处理应用程序包的变化,我这样写我的 mainfest mainfest.xml 我的接收器类
我目前在使用大量内存方面遇到了麻烦,我正在尽一切努力削减和优化涉及内存的代码...目前我的游戏的大部分 Nib 文件都加载了所有它在 ViewDidLoad 中的变量,现在我的问题是,在我的 view
如何从系统中删除 composer Php Dependecny Manager? 它说卸载无法继续,因为以下应用程序正在使用需要删除的文件。 Windows 资源管理器 最佳答案 我遇到了同样的问题
所以我使用 stow 在服务器上安装了 Python 2.7.1 源代码 .我过去很粗心,在处理源代码安装时我试图保持井井有条。所以,输入 stow。现在我使用 wget 安装了 easy_insta
有谁知道如何卸载 MacRuby?我在使用 RubyCocoa 然后决定试用 MacRuby,在安装 MacRuby 之后,RubyCocoa 已经停止工作。所以我想删除 MacRuby,但我找不到任
我无法从 64 位 EC2 卸载 mongo。在/usr/bin 我有 mongo 和 mongod 等等。当我从任何地方键入 mongo 时,它会在 1.8 版打开 shell。我现在下载了 2.0
本文实例讲述了Android编程实现监控apk安装,卸载,替换的方法。分享给大家供大家参考,具体如下: ?
1说明 mysql++是mysql开发团队为OO编程提供的C++开发库,是对mysql提供的底层数据存取API进行的C++封装,用其手册上的说法是:复杂而又庞大,当然功能也更强大。 Mysql+
自从我开始建立我的网站那天起,我安装了很多包,有时是为了测试一堆代码,有时是为了项目本身(后来我发现这不是需要的包)。但是现在,当我运行 pip freeze 时,我有一个包列表,我很难卸载不使用的包
我是一名优秀的程序员,十分优秀!