gpt4 book ai didi

c++ - ARM NEON的编码: How to start?

转载 作者:IT老高 更新时间:2023-10-28 22:23:46 27 4
gpt4 key购买 nike

背景(如果愿意,请跳过此步骤)

首先,我说我不是专家程序员。我是一名年轻的初级计算机视觉(CV)工程师,并且在C++编程方面经验丰富,主要是因为广泛使用了出色的OpenCV2 C++ API。我所学到的一切都是通过执行项目,解决问题和按时完成的需求,因为这是行业中的现实。

最近,我们开始开发用于嵌入式系统(ARM板)的CV软件,并且使用纯C++优化的代码来实现。但是,由于与传统计算机相比资源有限,因此在这种体系结构中构建实时CV系统是一个巨大的挑战。

那就是我发现NEON的时候。我已经阅读了很多有关此的文章,但这是一个相当新的主题,因此没有太多的信息,而且阅读的越多,我就越困惑。

问题

我希望使用NEON一次计算4或8个数组元素的功能来优化C++代码(主要是一些用于循环的代码)。在C++环境中是否可以使用某种库或一组函数?我感到困惑的主要原因是,我看到的几乎所有代码段都在汇编语言中,而我对此绝对没有任何背景,因此现在负担不起学习的费用。
我在Linux Gentoo中使用Eclipse IDE编写C++代码。

更新

阅读答案后,我对该软件进行了一些测试。我用以下标志编译了我的项目:

-O3 -mcpu=cortex-a9 -ftree-vectorize -mfloat-abi=hard -mfpu=neon 

请记住,该项目包括广泛的库,例如openframeworks,OpenCV和OpenNI,并且所有内容都使用这些标志进行了编译。
为了使用ARM板进行编译,我们使用Linaro工具链交叉编译器,GCC的版本为4.8.3。
您希望这会改善项目的绩效吗?因为我们完全没有经历任何变化,考虑到我在这里阅读的所有答案,这还是很奇怪的。

另一个问题:所有for循环都有明显的iteraton,但是其中许多循环遍历自定义数据类型(结构或类)。即使GCC可以循环访问自定义数据类型,也可以优化这些循环吗?

最佳答案

编辑:

从更新中,您可能会误解NEON处理器的功能。它是一个SIMD(单指令多数据) vector 处理器。这意味着在同一时间对多条数据执行一条指令(例如“乘以4”)非常好。它还喜欢做诸如“将所有这些数字加在一起”或“将这两个数字列表中的每个元素相加以创建第三个数字列表”之类的事情。因此,如果您遇到的问题看起来像是NEON处理器将为您带来巨大的帮助。

为了获得这种好处,您必须将数据以非常特定的格式放置,以便 vector 处理器可以同时加载多个数据,并行处理它们,然后同时将它们写回。您需要组织一些事情,使数学避免大多数条件(因为过早查看结果意味着往返NEON)。 vector 编程是对程序进行思考的另一种方式。全部与管道管理有关。

现在,对于许多非常常见的问题,编译器可以自动解决所有这些问题。但这仍然是处理数字以及特定格式的数字。例如,您几乎总是需要将所有数字放入内存中的连续块中。如果您要处理结构和类内部的字段,那么NEON并不能真正为您提供帮助。它不是通用的“并行处理”引擎。这是用于执行并行数学运算的SIMD处理器。

对于非常高性能的系统,数据格式就是一切。您不采用任意数据格式(结构,类等),而是尝试使其快速。您找出可以让您进行最并行工作的数据格式,然后围绕该代码编写代码。您使数据连续。您不惜一切代价避免内存分配。但这实际上不是一个简单的StackOverflow问题可以解决的问题。高性能编程是一种整体技能,是一种不同的思维方式。找到正确的编译器标志并不是您所能获得的。如您所见,默认值已经相当不错了。

您应该问的真正问题是,是否可以重新组织数据,以便可以使用更多的OpenCV。 OpenCV已经有许多优化的并行操作,几乎可以肯定会充分利用NEON。您要尽可能保持OpenCV使用的格式的数据。这可能是您获得最大改进的地方。

我的经验是,肯定有可能手工编写击败clang和gcc的NEON程序集(至少从几年前开始,尽管编译器肯定会继续改进)。出色的ARM优化与NEON优化不同。就像@Mats指出的那样,编译器通常会在明显的情况下做得很好,但并不总是在理想情况下都能处理所有情况,而且即使是技术娴熟的开发人员有时也有可能击败它,有时甚至会打败它。 (@wallyk也是正确的,因为手动调校程序集可以最好地保存为最后;但是它仍然非常强大。)

就是说,考虑到您的发言“我绝对没有任何背景的汇编,并且在这一点上我可能负担不起学习”,那么不,您甚至不必理会。首先,至少要不了解汇编程序(特别是矢量化NEON汇编程序)的基础知识(以及一些非基础知识),然后再去猜测编译器是没有意义的。击败编译器的第一步是知道目标。

如果您愿意学习目标,我最喜欢的介绍是Whirlwind Tour of ARM Assembly。加上下面的一些其他引用,足以让我在遇到特殊问题时比编译器高2-3倍。另一方面,它们不够用,以至于当我向经验丰富的NEON开发人员展示我的代码时,他看了大约三秒钟,然后说:“您在那里停了下来。”真正好的汇编很难,但是半体面的汇编仍然比优化的C++更好。 (同样,每年随着编译器编写者变得更好而变得不那么正确,但这仍然是正确的。)

  • ARM Assembly language
  • A few things iOS developers ought to know about the ARM architecture(以iPhone为重点,但原理对于所有用途都是相同的。)
  • ARM NEON support in the ARM compiler
  • Coding for NEON

  • 旁注 my experience with NEON intrinsics很少值得他们去解决。如果您要击败编译器,则需要实际编写完整的程序集。大多数时候,无论您将使用哪种内在函数,编译器都已经知道。掌握权力的地方通常是重组循环以最好地管理管道(而内部函数对此无济于事)。这可能在最近几年有所改善,但是我希望改进的 vector 优化器比其他方法更能胜过内在函数。

    关于c++ - ARM NEON的编码: How to start?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28547697/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com