gpt4 book ai didi

iphone - iPhone 3GS 上的 ARM 与 Thumb 性能,非浮点代码

转载 作者:行者123 更新时间:2023-12-03 18:17:21 24 4
gpt4 key购买 nike

我想知道是否有人对 iPhone 3GS 上的 ARM 与 Thumb 代码性能有任何确切的数字。专门针对非浮点(VFP 或 NEON)代码 - 我知道 Thumb 模式下的浮点性能问题。

是否存在较大 ARM 指令的额外代码大小成为性能风险的点?换句话说,如果我的可执行代码与可用内存相比相对较小,那么打开 Thumb 模式是否有任何可测量的性能差异?

我问的原因是,虽然我可以使用“-marm”选项在 Xcode 中为 NEON 特定源文件启用 ARM,但这会破坏模拟器构建,因为 GCC 正在构建 x86。我想知道我是否应该关闭“编译为拇指”并完成它。

最佳答案

我不知道 iPhone 的情况,但是关于拇指比 ARM 慢的一概而论的说法根本不正确。给定 32 位宽的零等待状态内存,thumb 会慢一点,像 5% 或 10% 这样的数字。现在如果是thumb2就另当别论了,据说thumb2可以跑得更快,我不知道iPhone有什么我的猜测是不是thumb2。
如果您没有用完零等待状态 32 位内存,那么您的结果会有所不同。一件大事是 32 位宽的内存。如果您在像 GameBoy Advance 系列这样的 16 位宽总线上运行,并且该内存或 ROM 上有一些等待状态,那么即使执行相同的任务需要更多的拇指指令,thumb 也可以轻松地运行 ARM 以提高性能。

测试你的代码!发明一种测试来提供您感兴趣或不感兴趣的结果并不难。显示 ARM 吹走拇指就像拇指吹走 ARM 一样容易。谁在乎 dhrystones 是什么,重要的是它今天运行你的代码的速度有多快。

多年来,我在测试 ARM 代码性能时发现,您的代码和编译器是重要因素。因此,拇指在理论上要慢几个百分点,因为它使用多几个百分点的指令来执行相同的任务。但是您是否知道您最喜欢的编译器可能很糟糕,并且只需切换编译器,您就可以将运行速度提高几倍(gcc 属于该类别)?或者使用相同的编译器并混合优化选项。无论哪种方式,您都可以通过巧妙地使用工具来掩盖 ARM /拇指的差异。您可能知道这一点,但您会惊讶地发现有多少人认为他们知道如何编译代码的一种方法是唯一的方法,而获得更好性能的唯一方法是在问题上投入更多内存或其他硬件。

如果您使用 iPhone,我听说那些人在使用 LLVM?我在很多方面都喜欢 llvm 概念,并且渴望在它成熟时将其用作我的日常驱动程序,但发现它生成的代码对于我正在执行的特定任务要慢 10-20%(或更多)。我处于 ARM 模式,我没有尝试拇指模式,而且我打开了 l1 和 l2 缓存。如果我在没有缓存的情况下进行测试以真正将拇指与 ARM 进行比较,我可能会看到拇指慢了几个百分点,但是如果您考虑一下(当时我不感兴趣),您可以缓存两倍于 arm 代码的拇指代码可能意味着即使任务的总体代码多几个百分点,通过缓存更多的代码并减少平均获取时间,thumb 可以明显更快。我可能得去试试。

如果您使用的是 llvm,那么您还有多个地方需要执行优化的其他问题。从 C 到字节码,你可以优化,然后你可以优化字节码本身,然后你可以合并所有的字节码并将其作为一个整体进行优化,然后当从字节码到汇编程序时,你可以优化。如果你只有 3 个源文件,并且假设每个机会只有两个优化级别,那些不优化或做优化,使用 gcc 你将有 8 个组合来测试,使用 llvm 的实验数量几乎高出一个数量级.比你真正能跑的多,成百上千。对于我正在运行的一项测试,不是在 C 到字节码步骤上进行优化,然后不是在分离时优化字节码,而是在将字节码文件合并为一个大(ger)文件后进行优化。让 llc 在武装过程中进行优化产生了最好的结果。

底线...测试,测试,测试。

编辑:

我一直在使用字节码这个词,我认为正确的术语是 LLVM 世界中的位码。 .bc 文件中的代码就是我的意思......

如果您使用 LLVM 从 C 转到 ARM,则中间有位码 (bc)。有用于优化 C 到 bc 步骤的命令行选项。一旦 bc 您可以优化每个文件,从 bc 到 bc。如果您选择,您可以将两个或多个 bc 文件合并为更大的 bc 文件,或者只是将所有文件转换为一个大的 bc 文件。然后还可以优化这些组合文件中的每一个。

我的理论,到目前为止只有几个测试用例,如果你不做任何优化,直到你在一个大 bc 文件中拥有整个程序/项目,优化器拥有最大数量的 if 信息。做它的工作。所以这意味着从 C 到 bc 没有优化。然后将所有 bc 文件合并为一个大 bc 文件。一旦你把整个事情作为一个大的 bc 文件,然后让优化器执行它的优化步骤,最大化信息和优化的质量。然后从优化的 bc 文件转到 ARM 汇编程序。 llc 的默认设置是启用优化,您确实希望允许该优化,因为这是知道如何针对目标进行优化的唯一步骤。 bc 到 bc 优化是通用的,而不是特定于目标的 (AFAIK)。

你仍然需要测试,测试,再测试。继续尝试在步骤之间进行优化,看看它是否会使您的程序运行得更快或更慢。

关于iphone - iPhone 3GS 上的 ARM 与 Thumb 性能,非浮点代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1198176/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com