- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试找到一种方法来为使用最近对 算法(目前是蛮力)的应用程序缓存我的元素数组。根据The Cache Performance and Optimization of Blocked Algorithm纸上写着:
Blocking is a general optimization technique for increasing the effectiveness of a memory hierarchy. By reusing data in the faster level of the hierarchy, it cuts down the average access latency. It also reduces the number of references made to slower levels of the hierarchy. Blocking is thus superior to optimization such as prefetching, which hides the latency but does not reduce the memory bandwidth requirement. This reduction is especially important for multiprocessors since memory bandwidth is often the bottleneck of the system. Blocking has been shown to be useful for many algorithms in linear algebra.
论文给出了一个矩阵乘法代码,修改为blocking以减少cache misses:
for kk = 1 to N by B
for j = 1 to N by B
for i = 1 to N
for k = kk to min(kk + B-1, N)
r = X[i,k]; // register allocated
for j = jj to min(jj + B-1, N)
Z[i,j] += r * Y[k,j];
这里,B 是blocking factor 但我们如何确定呢?有没有通用的方法来找到 cpu 缓存可以处理的特定限制?可能不是所有的 cpu 都有相同的缓存。通用程序说:
最近对算法(蛮力)是:
minDist = infinity
for i = 1 to length(P) - 1
for j = i + 1 to length(P)
let p = P[i], q = P[j]
if dist(p, q) < minDist:
minDist = dist(p, q)
closestPair = (p, q)
return closestPair
总结:
提前致谢!
最佳答案
第一个问题:
如果不在您打算优化的机器上进行实际测试,就没有确定 B 的简单方法。话虽如此,您可能可以通过一些实验找到一些“对大多数系统都有利”的数字(大约 12-15 年前我在这类事情上做了很多工作),我发现使用大约 8-16KB block 的东西有效很好。 “只遍历所有出现的内存”和“遍历 block ”之间的效果非常显着,如果你从非常小的 block 开始,当你开始变大时,你会看到一些很大的改进。然后“返回”下降,直到您达到 B 大到您回到开始位置的水平(丢弃良好的缓存以获取其他您在它之前不会使用的东西被扔掉了)。
我非常确定,如果您为代码选择 B 的“大小”,并测试您获得的性能,并且绘制图表,您可能会如果绘制“花费的时间”(或倒置的浴缸,如果绘制“每单位时间处理的项目数”),会发现它看起来像一个“浴缸”。只需在浴缸的“平坦”部分找到一些点即可。但是,请在几台不同的机器上尝试一下,以确保您在所有(或至少大多数)机器上都处于“平坦位”。
对于你的第二个问题,是这样的:
minDist = infinity
for i = 1 to length(P) - 1 by B
for j = i + 1 to length(P) by B
for ib = i to i+B-1
for jb = j to j+B-1
let p = P[ib], q = P[jb]
if dist(p, q) < minDist:
minDist = dist(p, q)
closestPair = (p, q)
return closestPair
如果 length(P)
不是 B 的倍数,处理最后几个元素需要一些额外的工作,所以不用 i +B-1
在 ib
循环中你可能需要 max(length(P), i+B-1)
和类似的 jb
循环。
编辑:
缓存将自行决定将哪些数据保存在缓存中,您几乎无法改变这里发生的事情。您可以更改的是您正在处理的数据 block 。
“阻塞”的关键是将正在处理的数据保留在 (L1) 缓存中。
假设整个数据锁有 100000 个元素,每个元素有 4 个字节,所以大约 400KB。这不适合任何现代处理器的 L1 高速缓存,因为它最多为 64KB,通常为 32KB。因此,当我们使用 i
遍历项目时,j
循环将通过加载数组的后面部分来“丢弃”所有良好的 L1 缓存内容。当然,当 j
循环在下一次开始时,当前缓存中的数据都没有用,因为它们都是数组的高位索引。
如果我们改为一次处理一点数组,以 block 为单位,我们可以在每个循环中处理 B 大小的数组 - 其中 B 元素不会占用超过缓存所能容纳的空间。所以 jb
循环不会丢弃 ib
循环的数据(反之亦然)。这意味着每个内部循环的运行速度都明显加快(我已经看到执行速度提高了 3 倍以上,而且这是在已经被认为是“好”的代码上)。
关于c++ - 如何确定缓存的阻塞因子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16275154/
对于一个简单的聊天程序,我使用了一个通过 boost::python 包装的 c 库。 使用 PyQT 编写了一个简单的 GUI。接收消息是通过阻塞调用完成的lib说。对于独立刷新的 GUI,通信部分
当我创建以下内容时,我试图创建一个可以被异常终止的线程类(因为我试图让线程等待一个事件): import sys class testThread(threading.Thread): def
我正在用 Haskell 编写服务器,我想在客户端断开连接后显式关闭它们。当我调用 hClose ,线程将阻塞,直到客户端关闭其一侧的句柄。有没有办法让它在不阻塞的情况下关闭? 提前致谢! 最佳答案
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicate: garbage collection Operation 我有几个相关问题。 1.JAVA垃圾收集器运行时,是否占用
我有一个 Angular 函数,它在初始 URL 中查找“列表”参数,如果找到,就会出去获取信息。否则我想获得地理位置。如果存在 URL 参数,我不想获取地理位置。我使用的术语是否正确? constr
我读了很多关于锁定数据库、表和行的文章,但我想要较低的锁定,比如只锁定“操作”,我不知道如何调用它,假设我在 php 中有函数: function update_table() { //que
在我的多线程 mfc 应用程序中,m_view->SetScrollPos 处于阻塞状态并且所有应用程序都被卡住。 View 是在另一个线程中创建的,这是这种行为的原因吗? //SetScrollPo
FreeSwitch 软件在几天内运行良好(~3 - 5 天),然后由于 FreeSwitch 被阻止,新的来电请求被接受!!正在进行的调用继续他们的 session ,他们的调用似乎没有受到影响,但
我有一组按钮,当鼠标悬停在这些按钮上时,它们会改变颜色。这些的 CSS 以这种方式运行: #navsite ul li button { height: 60px; width: 60
由于某些原因,当我调用 WSARecvFrom 时,该函数在接收到某些内容之前不会返回。 _socket = WSASocket(AF_INET, SOCK_DGRAM, IPPROTO_UDP, N
我了解一些关于 Oracle 阻塞的知识——更新如何阻塞其他更新直到事务完成,写入者如何不阻塞读取者等。 我理解悲观和乐观锁定的概念,以及有关丢失更新等典型银行教科书示例。 我也理解 JDBC 事务隔
在两个代码点之间,我是否可以判断进程是否已被内核抢占,或者更确切地说,当时是否有任何其他代码在同一处理器上运行? //Point A some_type capture = some_capture(
这是我在 Oracle 的面试问题。 有一个堆栈,即使堆栈已满,push 操作也应该等到它完成,即使堆栈为空,pop 操作也应该等到它完成。 我们怎样才能做到这一点? 我的回答 让一个线程做push
我想知道是否有人可以告诉我如何有效地使用循环平铺/循环阻塞进行大型密集矩阵乘法。我正在用 1000x1000 矩阵做C = AB。我按照 Wikipedia 上的循环平铺示例进行操作,但使用平铺得到的
我正在阅读有关绿色线程的内容,并且能够理解这些线程是由 VM 或在运行时创建的,而不是由操作系统创建的,但我无法理解以下语句 When a green thread executes a blocki
我正在创建的 JavaScript API 具有以下结构: var engine = new Engine({ engineName: "TestEngine", engineHost
ChildWindow 是一个模态窗口,但它不会阻塞。有没有办法让它阻塞?我基本上想要一个 ShowDialog() 方法,该方法将调用 ChildWindow.Show() 但在用户关闭 Child
我需要一些关于如何调试 10.6 版本下的 Cocoa 并发问题的指导。我正在将“for”循环转换为使用 NSOperations,但大多数时候,代码只是在循环的某个时刻卡住。我可以在控制台中看到 N
我正在使用 ReportViewer 控件和自定义打印作业工作流程,这给我带来了一些问题。我的代码看起来有点像这样: ids.ForEach(delegate(Guid? guid)
我有以下成功复制文件的代码。但是,它有两个问题: progressBar.setValue() 之后的 System.out.println() 不会打印 0 到 100 之间的间隔(仅打印“0”直到
我是一名优秀的程序员,十分优秀!