- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
简单的测试,
unsigned f(unsigned long long x) {
return __builtin_popcountll(x);
}
当使用 clang --target=arm-none-linux-eabi -mfpu=neon -mfloat-abi=softfp -mcpu=cortex-a15 -Os
编译时,⁎ 导致编译器发出实现经典 popcount 所需的大量指令对x
中的低位和高位字进行并行处理,然后将结果相加。
在我看来,通过浏览架构手册,NEON 代码类似于生成的代码
#include <arm_neon.h>
unsigned f(unsigned long long x) {
uint8x8_t v = vcnt_u8(vcreate_u8(x));
return vget_lane_u64(vpaddl_u32(vpaddl_u16(vpaddl_u8(v))), 0);
}
至少在尺寸方面应该是有益的,即使不一定是性能改进。
为什么 Clang† 不这样做?我只是给了它错误的选择吗? ARM 到 NEON 到 ARM 的转换是否非常缓慢,即使在 A15 上也是如此,以至于不值得吗? (这就是 a comment on a related question 似乎暗示的,但非常简短。)鉴于几乎所有现代移动设备都使用 AArch64,AArch32 的 Clang 代码生成是否缺乏关注和关注? (这似乎有些牵强,但众所周知,例如 GCC 偶尔会在 PowerPC 或 MIPS 等非主流架构上出现错误的代码生成。)
<支持> ⁎ Clang 选项可能是错误的或多余的,请根据需要进行调整。__popcountdi2
的调用,但这表明我可能只是调用错误。
最佳答案
Are the ARM-to-NEON-to-ARM transitions so spectacularly slow, even onthe A15, that it wouldn’t be worth it?
嗯,你问的很对。
很快,是的,是的。它很慢,在大多数情况下,在 NEON 和 ARM CPU 之间移动数据,反之亦然,这是一个很大的性能损失,超过了使用“快速”NEON 指令带来的性能提升。
详细来说,NEON 是基于 ARMv7 的芯片中的可选协处理器。ARM CPU 和 NEON 并行工作,我可以说彼此“独立”。
CPU 和 NEON 协处理器之间的交互通过 FIFO 组织。 CPU 将 neon 指令放入 FIFO 中,NEON 协处理器获取并执行它。当 CPU 和 NEON 需要彼此同步时,就会出现延迟。 Sync 正在访问相同的内存区域或在寄存器之间传输数据。
所以使用vcnt
的整个过程是这样的:
vcnt
放入 NEON FIFOvcnt
vcnt
CPU 一直在等待,而 NEON 正在执行它的工作。
由于 NEON 流水线,延迟可能高达 20 个周期(如果我没记错的话)。
注意:“最多 20 个周期”是任意的,因为如果 ARM CPU 有其他不依赖于 NEON 计算结果的指令,CPU 可以执行它们。
结论:根据经验,这是不值得的,除非您手动优化代码以减少/消除同步延迟。
PS:ARMv7 也是如此。 ARMv8 将 NEON 扩展作为核心的一部分,因此它不相关。
关于arm - 为什么 Clang 不对 AArch32 上的 __builtin_popcountll 使用 vcnt?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70008561/
我有一个默认的表 white-space : normal想申请white-space: nowrap对于链接到特定 th 的所有 td 元素,但不必将其应用于 元素本身,而不是使用外部 css 文件
我在一篇有关 Version Insight ( http://www.delphifeeds.com/go/s/77066 ) 的博客中读到(除其他外)JCL 没有受版本控制的 .dproj 文件,
我正在打开一个弹出窗口,并希望在其中执行单击操作,从而在打开它的页面中执行一些 jQuery。我在网上找到的所有内容都表明我应该能够使用 window.opener 做到这一点(例如 JQuery -
tablesorter 不适用于主题列,当列包含“-”时,例如: Name Subject Anton - Max "dfdsrv" Anna "fdsf" 但如果我添加带有规范符
我从 web 服务中获取了如下顺序的数据 234,00234,000,00 但是…… 如果 xml 更改为 NSMutableDictionary,它会转到排序顺序。 "Resultat_detail
我想在不执行循环的情况下从 pandas 列的值中提取第一个 3。 所以, df['myCol'][3] 5475 为了提取前 3 位数字,我这样做: int(str(df['myCol'][3])[
我一直读到python有严格的类型检查- >>> 1 + 'hello' Traceback (most recent call last): File "", line 1, in TypeE
在 MySQL 查询中,例如 SELECT * FROM ( SELECT user_id FROM favorites WHERE user_id >1 UNION SELECT user_id F
我有一个 UIScrollView,里面有一些标签。我可以使用按钮将 ScrollView 移动到另一个“页面”。但是当我推得太快时,偏移量不正确。 我将 ScrollView 移动到下一页的代码:
我正在尝试设置 SonarQube在成功构建 Travis 后评论我的 GitHub 拉取请求。 我已经有正常的分析工作。对于拉取请求分析,我还准备了所有 token ,安装了插件等。拉取请求中的问题
这里有一些代码。同样的模式(afaik)适用于英雄教程。 login.component.html: Invalid credentials login.component
我很困惑。我见过一些类似的问题,但没有一个能解决我的问题;所以我在网上抓取了这个脚本,它通过运行 makefile 自动压缩 javascript 文件,如下所示: concatenated.min.
我们在 url 参数中需要一个编码的分号字符,但 angular 不编码这个字符。 我们使用的资源如下所示: app.factory('TestResource', ['$resource', fun
我对 Hibernate 有一个奇怪的问题。我可以从数据库中选择一些东西,但我不能插入或更新任何值。这是我的配置和示例代码,persistance.xml: ****Us
类似于这个问题:group by not-null values我试图只对列 groupID 不为空的记录进行分组: +--+-------+------+-----+-----+----------
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: how to not apply opacity for child element? 哪个是设置不透明度的
我在我正在构建的 C++ 应用程序中使用 libtorrent,下载工作完美,但我想在尝试开始下载之前询问跟踪器它已连接的种子和对等点的数量。 我尝试使用 scrape_tracker(),但我从未收
我……很困惑。事情是这样的。我有一个编码为 UNICODE (Little Endian) 的 *ini 文件。在我的 Visual Studio 项目(我自己的 ini 解析器)中,我正在检查文本文
当我将 Linq-to-sql 查询绑定(bind)到 datagridview(在两者之间使用 BindingSource)时,列默认是可排序的。但是, bool 类型似乎并非如此。对于这些数据 G
当我将 iPhone 图像上传到我的 Wordpress 网站时,用 iPhone 拍摄的图像旋转错误。在我的电脑上旋转是正确的,但上传时旋转出错了。 有什么想法吗? 更新:Wordpress UI
我是一名优秀的程序员,十分优秀!