- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我研究 Altera OpenCL 已经有一段时间了,通过将计算部分转移到 FPGA 来改进繁重的计算程序。我设法执行了 Altera 提供的矢量加法示例,并且似乎工作正常。我查看了 Altera OpenCL 的文档,了解到 OpenCL 使用流水线并行来提高性能。
我想知道是否有可能在 FPGA 中使用 Altera OpenCL 实现类似于 VHDL 中并行执行的多个进程的并行执行。就像在一个可以并行执行的设备中启动多个内核一样?可能吗?我如何检查它是否受支持?任何帮助将不胜感激。
谢谢!
最佳答案
快速的回答是肯定的。
根据 Altera OpenCL 指南,通常有两种方法可以实现:
1/用于向量化数据加载/存储的 SIMD
2/复制设备上的计算资源
对于 1/,使用 num_simd_work_items 和 reqd_work_group_size 内核属性,来自同一工作组的多个工作项将同时运行
对于2/,使用num_compute_units 内核属性,多个工作组将同时运行
请先开发单工作项内核,然后使用1/来提高内核性能,一般最后会考虑2/。
通过执行 1/和 2/,将有多个工作组,每个工作组都有多个工作项同时在 FPGA 设备上运行。
注意:根据您要解决的问题的性质,上述优化可能并不总是适用。
关于parallel-processing - FPGA 中的 Altera OpenCL 并行执行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31276969/
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我相信在大学时我用从 C 派生的语言为 FPGA 编写了一个程序。我了解 VHDL 和 verilog 等语言。但是,我不明白的是程序员在使用哪个方面有多少选择?它依赖于FPGA吗?我将使用 Xili
在设计 FPGA 系统时,我如何粗略估计给定任务所需的逻辑 block 数量? 有人对我对这些常见设备的期望有一个粗略的数量级吗? 串口 使用 CRC32 的数据包解帧器 8 微核 我看过 www.o
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我是编程和 FPGA 的新手。我喜欢在我的 Windows 10 PC 上运行一个程序,并喜欢将输入发送到 FPGA,当处理完成后,我喜欢接收输出到同一个程序。是否可能以及如何实现。我需要一些指导才能
我有一个基本问题。我为一些媒体应用程序制作了一些 FPGA 图像和 现在我想在性能和面积方面将我的结果与相同算法的 ASIC 实现的结果进行比较。我听说这样的比较没有意义,因为它有点比较苹果和橘子。但
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我正在用一个小算法修改固件文件 (.jic) JTAG 间接配置文件,但更改文件内的数据使其无法使用,因为文件中某处有一个校验和必须更新。 我需要找到 .jic 文件中的校验和在哪里,并破译使用的算法
我想通过 Xilinx FPGA 的 MGT channel 发送信号(不管是什么类型的信号,只是随机二进制)。这是用于测试 PCB 上的 MGT 走线。我可以实现这一目标的最简单方法是什么?对于常规
我正在使用 Xilinx ISE 14.7 合成器。我能够使用 .coe 文件初始化我的 BRAM 并访问它。我也可以使用 data2mem 工具用新的 .mem 文件更新它并更新我的位文件。这里我已
我在使用 Lattice ICE5LP4K 的内部振荡器时遇到问题。根据 iCE40 振荡器使用指南附录,verilog 中的代码应如下所示: SB_HFOSC OSCInst0 (
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 12 个月
我正在尝试在 FPGA 和 x86_64 Linux 机器之间进行 DMA 传输。 在 PC 端,我正在做这个初始化: //driver probe ... pci_set_master(dev);
Xilinx FPGA 中的“切片寄存器”和“切片 LUT”有什么区别? 为什么在 Vertix 5 中切片寄存器的数量等于切片 LUT 的数量,但在 Vertix 6 和 Vertix 7 中切片寄
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 想改进这个问题?将问题更新为 on-topic对于堆栈溢出。 5年前关闭。 Improve this qu
这是平行线: http://anycpu.org/forum/viewtopic.php?f=13&t=66 它有 64 个内核、1GB RAM、运行 Linux、以太网——每个人都在为它大喊大叫..
我正在设计一个基于 xilinx fpga 上的 microblaze 微处理器的微 Controller 。大部分硬件设置已完成。此时我正在更新的是要在 microblaze 上运行的 c 代码。在
在进行时钟域转换(速率匹配)时,我们通常将数据翻倍以避免亚稳态。双翻牌只会降低亚稳的概率。三重翻牌将进一步减少它。 如何计算亚稳定性和使用的时钟域触发器数量之间的概率/关系? 最佳答案 亚稳定性查询的
我知道在使用这些输入之前需要将所有输入同步到 FPGA 以避免亚稳态。我还意识到需要在单个 FPGA 中同步跨时钟域的信号。这个问题与跨越时钟域无关。 我的问题是定期注册 是否是个好主意?全部 的输入
我是一名优秀的程序员,十分优秀!