multithreading - 如何针对给定的多核架构优化算法-6ren

multithreading - 如何针对给定的多核架构优化算法

转载作者：行者123 更新时间：2023-12-03 16:00:15

26

4

我想知道我应该采用哪些技术来优化给定架构的给定算法。如何使用更好的缓存来提高性能。如何减少缓存一致性或我应该在算法/程序中避免哪些访问模式，以便缓存一致性不会影响我的性能？

我了解一些使用 L1 中最近缓存的数据的标准技术，但是我将如何有效地使用多核上共享缓存(比如 L2)中的数据，从而避免更昂贵的主内存访问？

基本上，我对我应该尝试利用或避免哪些数据访问模式感兴趣，以便更好地映射到我的给定架构。我可以使用什么数据结构，在什么场景下什么架构(具有不同级别的私有(private)缓存和共享缓存)来提高性能。谢谢。

最佳答案

我应该采用哪些技术来优化给定架构的给定算法？

微架构各不相同，因此请了解您的特定处理器的详细信息。英特尔在他们的 optimization guide 中提供了很好的文档。 .如果您使用的是 Intel 处理器，您需要阅读第 8.3 和 8.6 节:

8.3 优化指南
本节总结了调整多线程应用程序的优化指南。列出了五个领域(按重要性排序):

线程同步

公交利用率

内存优化

前端优化

执行资源优化

本节列出了与每个领域相关的实践。在接下来的部分中更深入地讨论了每个领域的指南。大多数编码建议都提高了处理器内核的性能扩展；和扩展由于 HT 技术。仅适用于一种环境的技术被记录下来。

8.6 内存优化

高速缓存的高效操作是内存优化的一个关键方面。缓存的高效运行需要解决以下问题:

缓存阻塞

共享内存优化

消除 64 KB 别名数据访问

防止一级缓存中的过度驱逐

为了更好地映射到给定的体系结构，我应该尝试利用或避免哪些数据访问模式？

漏洞利用

当缓存已满并且缓存中的访问未命中时，缓存必须驱逐某些内容为新数据/代码腾出空间，驱逐的内容通常基于最近最少使用 (LRU) 的近似值。如果可能，那么您的代码应该具有强大的 locality of reference :

尝试将算法中使用的接近时间的数据打包，使其在空间(地址)上接近

压缩数据，当 32 位整数可以时不要使用 64 位整数，例如

有时，“对象”(相关数据)相对于缓存行的对齐很重要。例如，如果有一个对象数组，每个对象为 64 字节并且它们被随机访问，那么在 64 字节边界对齐将通过不引入未使用的数据来提高缓存效率。如果对象没有对齐，那么每个接触的对象都会带来两个缓存行，但只需要 64 字节，所以 50% 的数据传输没有使用(假设缓存行是 64 字节)。

正如@PaulA.Clayton 在评论中指出的那样，预取数据非常重要，因为它隐藏了部分或全部内存延迟。 “此外，利用基于步幅的硬件预取可能非常有益。(软件预取在某些情况下也很有用。)尽早获取指针有助于提高内存级并行性。”

为了方便硬件预取器并提高带入缓存的数据的利用率，请仔细注意矩阵和其他大型结构的存储和访问方式...请参阅 Wikipedia article on row-major order .

避免

你不经常使用的数据不应该靠近你经常使用的数据

避免 false sharing .如果两个或多个线程访问相同的缓存行，但未在缓存行内共享相同的数据，并且其中至少一个是写入者，则您存在错误共享...将有与 cache coherency protocol 相关的不必要的负担和延迟命中。 .

在处理完旧数据之前，尽量不要使用新数据

测量

正如安德烈·亚历山大雷斯库所说 in this talk - 当谈到性能调优时，唯一正确的直觉是“我应该衡量这个”。熟悉缓存性能监控工具，例如:

perf

Cachegrind

关于multithreading - 如何针对给定的多核架构优化算法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28870256/

26

4

0

文章推荐： ruby-on-rails - 请帮我使用 send_data 发送一个 jpg 文件

文章推荐： iphone - 更改 NSURLConnection 的 userAgent

文章推荐： reactjs - react-router中的BrowserRouter和Router有什么区别？

文章推荐： cocoa - 如何检查 NSString 是否以特定字符(.jpg)结尾？

perl - 给定/当值未定义时
在下面的代码中，我得到一个 uninitialized value警告，但仅限于第二个 given/when例子。为什么是这样？ #!/usr/bin/env perl use warnings; u
perl - 给定/何时的哪些部分是实验性的？
整个“开关”功能是否已成为实验性的？在没有 Perl 的 future 版本破坏我的代码的情况下，我可以依赖其中的某些部分吗？一般来说，将稳定功能更改为实验性的政策是什么？背景use feature
c++ - 条件语句(给定)
有没有办法在一个条件语句中写出如下语句？ a和b不能同时等于5。 (a可以是5，b可以是5，但是a AND b不能是5) 最佳答案正如克里斯指出的那样，您要查找的是逻辑异或，相当于逻辑不等于 !=:
给定 n 条线查找所有线段交点的算法
我正在寻找一种算法来找到给定 n 条线段的所有交点。以下是来自 http://jeffe.cs.illinois.edu/teaching/373/notes/x06-sweepline.pdf 的伪
python - 给定 k 个标记的最大项目
数组中有 N 个元素。我可以选择第一项最多 N 次，第二项最多选择 N-1 次，依此类推。我有 K 个 token 要使用并且需要使用它们以便我可以拥有最大数量的项目。 arr = [3, 4, 8
python - 给定 Spacy 中的引理是否有可能获得单词列表？
我正在尝试修复法语文本中的语法性别，想知道是否有办法从某个词条中获取所有单词的列表，以及是否可以在此类列表中进行查找？最佳答案尝试: import spacy lemma_lookup = spa
winapi - 给定 HWND，如何从所有者绘制的窗口中提取文本信息？
我正在为 Win32 编写一个简单的自动化测试应用程序。它作为一个单独的进程运行，并通过 Windows API 访问目标应用程序。我可以阅读窗口层次结构，查找标签和文本框，并通过发送/发布消息等来单
javascript - 给定 JSON 中的第一行是什么？
在 nodeJs 中使用 Sequelize 时，我从 Sequelize 收到此错误，如下所示: { [SequelizeUniqueConstraintError: Validation erro
python - 给定 CNN 的回归激活映射
本文https://arxiv.org/pdf/1703.10757.pdf使用回归激活映射 (RAM) - 而不是类激活映射 (CAM) 来解决问题。有几篇文章描述了如何实现 CAM。但是我找不到
ios - 给定 mach_header 我如何找到二进制图像名称？
我正在研究 Mach 动态链接器 dyld。这个问题适用于所有 Apple 平台，但很高兴得到特定于平台的答案；我正在使用 ObjC，但如果对你有用的话，我也很乐意翻译 Swift。 The rele
instagram - 给定 user_id，如何找到用户名？
我有一个包含数千个 Instagram 用户 ID 的列表。我如何获得他们的 Instagram 用户名/句柄？最佳答案你必须使用这个 Instagram API: https://api.ins
scala - 给定 Elasticsearch 无效模式
我在下面的代码: def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName("Spark-Hbase").s
excel - 给定 2 个日期时查找单元格范围
我有一个表格，其中包含从 1 到 10 的数字。(从 D2 到 M2) 假设A1中有03/09/2019 并且在B1中有06/09/2019 并且在C1中有Hello 在A 列中，我有多个系列的单词，
java - 给定 URI 的注释检索
我想在给定服务对应的 URI 的情况下检索服务的注释(特别是 @RolesAllowed )。这是一个例子: 服务: @GET @Path("/example") @RolesAllowed({ "B
oracle - 给定 JDBC 连接上的并发查询？
我看到 OraclePreparedStatementexecuteQuery() 表现出序列化。也就是说，我想使用相同的连接对 Oracle 数据库同时运行两个查询。然而，OraclePrepare
java - 给定 k，使用递归求几何和
import java.util.Scanner; public class GeometricSumFromK { public static int geometricSum(int k,
java - 给定 HttpServletRequest 的网页服务的良好模式是什么？
我创建了一个抽象基类Page，它说明了如何构建动态网页。我正在尝试想出一种基于作为 HttpServletRequest 传入的 GET 请求生成 Page 的好方法。例如... public cla
java - 给定 SMS 字符串的正则表达式是什么
我的字符串是一条短信，采用以下两种格式之一: 潜在客户短信: 您已收到 1 条线索标题:我的领导潜在客户 ID:12345-2365 警报设置 ID:890 短信回复: 您已收到 1 条回复标题
python - 给定 python 中的字符串列表
我在 python 中有以下代码: class CreateMap: def changeme(listOne, lisrTwo, listThree, listFour, listfive):
java - 给定 id 的多个实体的高效缓存感知获取
这是在 Hibernate 上运行的 JPA2。我想检索相同实体类型的多个实例，给定它们的 ID。其中许多已经在持久性上下文和/或二级缓存中。我尝试了几种方法，但似乎都有其缺点: 当我使用 ent

首页

博学

6Ren·AI

商城

multithreading - 如何针对给定的多核架构优化算法