gpt4 book ai didi

c++ - 用于列规范化的 cuda 内核(分段缩减)

转载 作者:行者123 更新时间:2023-11-30 04:25:35 24 4
gpt4 key购买 nike

我正在将一些代码移植到 GPU 并且我已经实现了大部分代码,除了我的算法需要执行列规范化步骤(或者它应该,算法在没有它的情况下工作,但最好对算法进行规范化稳定)。

我正在努力想出实现它的最佳方法。我已经有一个可以减少的内核,所以我可以重用它来获取列总和。列的数量可以少到几十列,每列几千个元素,最多几千列,每列几千个元素。如果我在每一列上迭代调用我的缩减内核,我认为性能会很差,所以我正在尝试想出更好的方法,并希望其他人已经以更优化的方式解决了这个问题。

最佳答案

您可能需要查看开源 CUDA Data-Parallel Primitives Library(CUDPP)来自加州大学戴维斯分校/Nvidia 的团队。它包括快速分段扫描和并行缩减。

关于c++ - 用于列规范化的 cuda 内核(分段缩减),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12079683/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com