gpt4 book ai didi

TensorFlow:图形优化(GPU 与 CPU 性能)

转载 作者:行者123 更新时间:2023-12-04 08:47:57 29 4
gpt4 key购买 nike

此问题最初发布于 Github #3320 .最好从那里开始,因为该线程中有更多关于原始问题的详细信息,而且体积庞大,所以我不想在 StackOverflow 上重新发布。问题的总结是使用 GPU 处理 TensorFlow Graph 时的性能比 CPU 慢。包括 CPU/GPU 时间线(调试)以进行评估。回复的评论之一是关于优化图形以加快处理速度,并要求讨论一个玩具示例。 “ 原始解决方案”是我的强化学习代码,表现出性能缓慢,并创建了一些已发布的代码供社区讨论和评估。

我已经附上了测试脚本以及一些原始数据、跟踪文件和 TensorBoard 日志文件,以加快任何审查。
CPUvsGPU testing.zip

讨论已移至 StackOverflow,因为该主题将使所有 Tensorflow 用户受益。我希望发现的是优化已发布图形性能的方法。 GPU 与 CPU 的问题可以分开,因为它可以通过更高效的 TensorFlow Graph 解决。

我所做的是带走我的原方案并剥离了“游戏环境”。我用随机数据生成代替了它。在这个游戏环境中,没有创建/修改 TensorFlow Graph。结构紧跟/杠杆nivwusquorum's Github Reinforcement Learning Example .

2016 年 7 月 15 日,我做了一个“git pull”来前往 Tensorflow。我在启用和不启用 GPU 的情况下执行了图表并记录了时间(见附图)。意外的结果是 GPU 的表现优于 CPU(这是未达到的初始期望)。所以这个带有支持库的代码“cpuvsgpu.py”在 GPU 上表现更好。所以我把注意力转向我的 之间可能有什么不同。原方案和发布的代码。我还将头部更新到 7/17/2016。随着 上 CPU 和 GPU 之间的整体差异确实有所改善原方案比我看到 47s CPU vs 71s GPU 的一周又近了很多。快速查看新的跟踪与我的初始跟踪,似乎“摘要”可能已更改,但也可能还有其他改进。

gtx 950 timing

我尝试了另外 2 种组合来更好地反射(reflect) 原方案运作。那些 CPU 负载很重(~60% - 70%),并通过并发执行该脚本来模拟。另一个变化是增加“数据 IO”,原方案使用观察列表随机选择观察进行训练。这个列表有一个固定的上限,然后开始删除列表中的第一个项目,同时追加新项目。我认为其中之一可能是减慢了向 GPU 传输数据的速度。不幸的是,这两个版本都没有导致 CPU 的性能超过 GPU。我还运行了一个快速的 GPUTESTER 应用程序,该应用程序执行大型矩阵乘法以了解任务大小的时序差异,并且符合预期。

我真的很想知道如何改进此图并减少小 OPS 的数量。似乎这是大部分表演可能发生的地方。学习将较小的操作组合成较大的操作而不影响图形的逻辑(功能)的任何技巧会很好。

最佳答案

Results感谢您的精彩帖子。

我遇到了类似的问题:对于 TensorFlow 提供的两个示例,GPU/CPU 处理比单独的 CPU 处理需要更多的 CPU 和耗用时间:线性回归损失模型和初学者的 MNIST,而 MNIST Deep 脚本显示 CPU 的显着改进和使用 GPU 时已过期 Profiling GPU and CPU Performance第 10 页开始讨论。

以下是数字:

workload     | win 8.1   win 8.1   win8.1     win 10    win 10    win 10  
workload | cpu only cpu gpu cpu only cpu gpu
-------------+-----------------------------------------------------------
mnist deep | 14053 384.26 328.92 12406 289.28 211.79
mnist deep | 14044 384.59 328.45 12736 293.71 210.48
mnist10,000 | 24.10 45.85 7.67 26.56 44.42 7.32
mnist10,000 | 23.94 44.98 7.56 25.80 44.24 7.32
mnist50,000 | 95.49 198.12 38.26 109.99 197.82 36.15
mnist50,000 | 96.07 197.86 37.91 109.46 195.39 39.44
lr10,000 | 6.23 15.08 1.78 7.38 16.79 1.91
lr10,000 | 6.33 15.23 1.78 7.44 16.59 1.91
lr100,000 | 48.31 124.37 17.67 62.14 148.81 19.04
lr100,000 | 48.97 123.35 17.63 61.40 147.69 18.72

(来源: Profiling GPU and CPU Performance,图64 Results)

关于TensorFlow:图形优化(GPU 与 CPU 性能),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38688777/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com