- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有一个大数据 block ,如果将该 block 视为 64 位无符号整数数组,则某些操作会最快,而如果将其视为 32 位无符号整数数组,则其他操作会最快。 “最快”是指运行代码的机器平均最快。我的目标是在运行代码的所有环境中都接近最佳,我认为如果我使用 void 指针,将其转换为两种类型之一以进行取消引用,这是可能的。这让我想到了我的问题:
1) 如果我使用 void 指针,将其转换为两种类型之一以进行解引用是否会比直接使用所需类型的指针慢?
2) 我对标准的理解是否正确,即这样做不会违反抗锯齿规则,并且不会产生任何未定义或未指定的行为?我使用的 32 位和 64 位类型存在并且没有填充(这是静态断言)。
3) 我是否正确理解抗锯齿规则基本上服务于两个目的:类型安全和编译器保证启用优化?如果是这样,如果我正在讨论的代码将被执行的所有情况都不会发生其他取消引用,我是否可能会放弃任何重要的编译器优化?
我已将其标记为“c11”,因为我需要根据 c11 标准证明该行为已明确定义。任何对该标准的引用都将不胜感激。
最后,我想解决一个可能会在响应中提出的问题,即“过早优化”。首先,这段代码正在不同的计算集群上运行,如果性能至关重要,而且我知道即使是取消引用中的一条指令减速也会很重要。其次,在所有硬件上测试它需要时间,我不必完成这个项目。有很多不同类型的硬件,我在现场实际使用硬件的时间有限。不过,我相信这个问题的答案无论如何都能让我做出正确的设计选择。
编辑:答案和评论指出这种方法存在别名问题,我直接在 c11 标准中验证了这一点。在 32 位情况下, union 数组需要两次地址计算和取消引用,因此我更喜欢数组 union 。那么问题就变成了:
1) 将 union 成员用作数组而不是指向内存的指针是否存在性能问题?即, union 成员访问是否有成本?请注意,声明两个指向数组的指针违反了抗锯齿规则,因此需要直接通过 union 进行访问。
2) 当通过一个数组然后通过另一个数组访问时,数组的内容是否保证不变?
最佳答案
您的问题有不同的方面。首先,解释不同类型的内存有几个问题:
别名是一个“本地”问题。在函数内部,您不希望拥有指向具有不同目标类型的同一对象的指针。如果您确实修改了此类指向的对象,编译器可能会假装不知道该对象可能已更改并错误地优化您的程序。如果您不在函数内部执行此操作(例如,在开头进行强制转换并保留该解释),您应该可以使用别名。
现在对齐问题经常被忽视,因为现在许多处理器对对齐问题都相当宽容,但这不是可移植的,而且可能还会影响性能。因此,您必须确保您的数组以适合您访问它的所有类型的方式对齐。这可以通过 C11 中的 _Alignas
来完成,旧版编译器的扩展也允许这样做。 C11 对对齐添加了一些限制,例如,这始终是 2 的幂,这应该使您能够针对此问题编写可移植代码。
整数类型填充现在很少见(唯一的异常(exception)是 _Bool
),但要确保您应该使用已知不会有问题的类型。在您的情况下,这些是 [u]int32_t
和 [u]int64_t
,它们已知具有完全请求的位数并且具有符号类型的二进制补码表示。如果平台不支持它们,您的程序将无法编译。
关于 union 访问成本与使用基本类型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29760656/
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
声明引用会导致运行时成本吗? Typename a; auto& b=a; func(b); 在循环内声明引用会导致多倍的运行时成本吗? Typename a=Typename();//defa
给定一组代表(成本, yield )的样本数据 items = [ (1000, 300), (500, 150), (400, 120), (300, 100), (200, 50), (55, 2
我从 link 得到这个其中谈到了外部归并排序。 来自幻灯片 6 示例:使用 5 个缓冲页,对 108 页文件进行排序 第 0 次:[108/5] = 22 次排序运行,每次运行 5 页(最后一次运行
使用 Javascript 在 localStorage 中查找值的速度有多快? 有没有人有指向任何性能测试的链接,这些测试表明是否值得在 JavaScript 对象中缓存数据?或者浏览器是否已经缓存
我正在尝试创建一个电子表格,以跟踪具有已知保质期的元素的当前和 future 成本。这包括产品是什么、产品成本、产品生命周期(以月为单位)和最后购买日期。 我已经尝试了几种方法来摆弄 Excel 公式
我正在使用最佳匹配算法在 TraMineR 中进行序列分析。不幸的是,我的 由于右删失数据,序列长度不等 .我的序列的最小长度是 5,最大长度是 11。长度的变化对于我感兴趣的序列之间的差异没有意义。
我读过一些文章说你应该将成本设置为至少 16 (216),但其他人说 8 左右就可以了。 是否有任何官方标准应该将成本设置为多高? 最佳答案 您应该使用的成本取决于您的硬件(和实现)的速度。 一般来说
我记得在我的架构类中假设L1缓存命中为1个周期(即与寄存器访问时间相同),但是在现代x86处理器上实际上是真的吗? L1缓存命中需要几个周期?与注册访问权限相比如何? 最佳答案 这是一篇很棒的文章:
我正在尝试确定来自托管我的 azure 函数的 azure 存储帐户的成本。我主要在本地进行开发,并使用 azure 存储模拟器并运行 func start cmd。我的问题是,此设置是否仍然会增加我
我有一个为工作编写的大型复杂 VBA 脚本。我正在清理它,并注意到我可以用比我所做的更动态的方式定义我的数组。 最初我将数组定义为字符串,如下所示: Dim header_arr(6) As Stri
任何人都可以为我指定以下情况下的费用: 当使用快照监听器的查询监听集合并且集合中的一个文档将被添加或更新时,我是否需要为已更新的文档或查询中的所有文档付费? 示例:我在用户集合上有一个快照监听器,其中
摘要 我正在使用 Octave 和 Ling-Spam 语料库构建垃圾邮件与普通邮件的分类器;我的分类方法是逻辑回归。 较高的学习率会导致计算成本为 NaN 值,但它不会破坏/降低分类器本身的性能。
我正在从事一个项目,其中我的代码的吞吐量非常重要,经过一番考虑后我选择让我的程序线程化。 主线程和子线程都在两个共享字典中添加和删除。考虑到在 python 中锁定的性能,我一直在通过互联网查看一些输
所以我在 TCP 套接字上发送数据,以数据大小为前缀,如下所示: write(socket, &length, sizeof(length)); write(socket, data, length)
我正在评估 Azure 媒体服务作为我们正在构建的解决方案的托管平台。我已成功使用 DRM 设置动态加密并使用 Azure AD 设置内容保护。我还检查了定价,我知道您必须为编码作业(一次性)、流媒体
AWS S3 Java SDK 提供了一种方法 doesObjectExist()检查 S3 中是否存在对象。它内部使用什么操作?是吗GET , LIST , 或 HEAD ? 我的担忧主要与它的成本
我一直在使用 three.js 来试验和学习 GLSL 和 WebGL。我来自 3d 艺术世界,所以我了解网格、3d 数学、照明等的概念。虽然我确实查阅了 OpenGL 和 WebGL 文献(以及 g
我正在 Azure 中设计一个 Web 服务。是否可以计量每个最终用户的实际 Azure 平台使用成本? Azure 是否向最终用户提供计费服务? 最佳答案 如今的 Windows Azure 计费模
我目前在 MySql 中有一个表,如果我运行此查询,则有 730 万行,大小为 1.5GB: How to get the sizes of the tables of a mysql databas
我是一名优秀的程序员,十分优秀!