- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
问题
我有一段 java 代码(JDK 1.6.0._22,如果相关)实现了一个无状态、无副作用且没有互斥锁的函数。但是它确实使用了大量内存(我不知道这是否相关)。
过去我访问过 Sun 实验室并收集了标准的“性能与线程数”曲线。由于此函数没有互斥锁,因此它有一个漂亮的图形,尽管垃圾收集随着线程数量的增加而启动。经过一些垃圾收集调整后,我能够使这条曲线几乎平坦。
我现在正在英特尔硬件上做同样的实验。硬件有 4 个 CPU,每个 8 个内核和超线程。这给出了 64 个 availableProcessors()。不幸的是,“性能与线程数”的曲线对于 1、2、3 个线程和 3 个线程的上限很好地缩放。在 3 个线程之后,我可以在任务中放置任意多的线程,性能也没有变好
尝试解决问题
我的第一个念头是我愚蠢地在某处引入了一些同步代码。通常为了解决这个问题,我运行 JConsole 或 JVisualVM,并查看线程堆栈跟踪。如果我有 64 个线程以 3 的速度运行,我希望其中有 61 个线程等待进入互斥锁。我没有找到这个。相反,我发现所有线程都在运行:非常慢。
第二个想法是计时框架可能引入了问题。我用一个虚拟函数替换了我的函数,该函数使用 AtomicLong 计数为十亿。这与线程数量成比例:与 1 个线程相比,使用 64 个线程我可以数到 10,000 次 64 倍。
我想(绝望)也许垃圾收集需要很长时间,所以我调整了垃圾收集参数。虽然这改善了我的延迟变化,但它对吞吐量没有影响:我仍然有 64 个线程以我期望的 3 个运行速度运行。
我已经下载了intel工具VTunes,但是我的技能很薄弱:它是一个复杂的工具,我还不了解它。我有订购的说明书:送给自己的一份有趣的圣诞礼物,但这对解决我当前的问题有点太晚了
问题
最佳答案
I have a piece of java code (JDK 1.6.0._22 if relevant)
从那时起,性能有了相当大的改进。我会尝试 Java 6 update 37 或 Java 7 update 10。
It does however use a lot of memory
这可能意味着您访问数据的方式可能很重要。访问主内存中的数据可能比在主缓存中慢 20+x。这意味着您必须保守地访问数据并充分利用您访问的每条新数据。
After 3 threads I can put as many threads as I want to the task, and the performance gets no better Instead I found all the threads running: just very slowly.
这表明您正在最大限度地使用资源。考虑到您正在使用的内存量,最有可能被最大化的资源是 cpu 到主内存桥。我怀疑你有一个 64 线程的桥!这意味着您应该考虑可能使用更多 cpu 但改进访问内存的方式(更少随机和更多顺序)并在您这样做时减少卷(尽可能使用更紧凑的类型)。例如我有“带两位小数的短”类型而不是 float ,它可以使用一半的内存。
正如您观察到的,当每个线程都更新它自己的私有(private) AtomicLong 时,您将获得线性可伸缩性。这根本不会使用 cpu 到主内存的桥接。
来自@Marko
Peter, do you have an idea how these multicore architectures work with memory, anyway?
没有我想要的那么多,因为这个问题对 Java 不可见。
Does each core have an independent channel?
每个核心都有一个独立的主缓存 channel 。对于外部缓存,每个或 2-6 个缓存区域可能有一个 channel ,但在重负载下会发生大量冲突。
对于通往主内存的桥梁,有一个非常宽的 channel 。这有利于长顺序访问,但对随机访问非常不利。单个线程可以通过随机读取将其最大化(足够随机,它们不适合外部缓存)
Or at least independent as long at there are no collisions?
一旦您耗尽了主缓存(L1 通常为 32 KB),它就会一直发生冲突。
Because otherwise scaling is a great issue.
正如 OP 所展示的那样。大多数应用程序要么 a) 花费大量时间等待 IO b) 分配对小批量数据的计算。对大量数据进行计算分配是最糟糕的情况。
我处理这个问题的方法是在内存中安排我的数据结构以便顺序访问。我使用堆外内存,这很痛苦,但可以让您完全控制布局。 (我的源数据是为持久性而映射的内存)我通过顺序访问将数据流式传输并尝试充分利用这些数据(即我尽量减少重复访问)即使有 16 个内核,也很难假设所有这些内核都会被使用效率很高,因为我在任何时候都有 40 GB 的源数据和大约 80 GB 的派生数据。
注意:高端 GPU 通过具有令人难以置信的高内存带宽解决了这个问题。高端处理器可以获得 250 GB/秒,而典型的 CPU 约为 4-6 GB/秒。即便如此,它们更适合矢量化处理,并且它们引用的峰值性能可能几乎没有内存访问,例如曼德尔布洛特集。
关于java - 除了互斥锁或垃圾收集之外还有哪些机制可以减慢我的多线程 Java 程序的速度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13969076/
我只是有一个关于 Java 并发编程的简单问题。例如,我有一个 NxN 矩阵,矩阵的每一行都有一个对应的线程,如果每一行中的线程之间没有交互,如果多个线程同时访问和修改矩阵的单独行是否安全(或正确)?
jwplayer("myElement_0").onPlay(function(){ pausePlayers(1); alert('0 has started'); }); jwplayer("my
我在想。当我使用一个std::mutex _lock 并想依赖守卫来释放它时,我可以这样使用吗? class MyClass{ private: mutable std::mutex _loc
这种互斥模式是否像我认为的那样安全?如果是这样,你怎么调用它? lock (_lock) { if (_flag) return; else _flag = true; } try {
我有一个静态库 来访问数据库。它有一个函数 readMaximum()。 readMaximum() 从数据库中读取最大值。此函数是线程安全的(使用互斥量)。 但问题是: 有两个进程A.exe和B.e
我正在为互斥锁的逻辑而苦苦挣扎;我在这里检查 key 是否被拿走,如果没有,我们拿走它,完成后释放它;但是你能帮我看看我怎样才能有一个循环来检查 key 直到它可用吗? rdb.setnx(lockk
我正在使用 clp(fd) 编写 Prolog 程序并且我很难实现我想要的约束之一。 输出是一个整数列表(长度取决于程序另一部分的输入),其中有某些相互排斥的预定义数字对,每对中的一个数字必须在输出中
我正在尝试使用 mesos/marathon 实现一个 lizardfs 集群。为此,我创建了一些 docker 镜像。 我需要获取某种类型的 docker 容器(lizardfs-master),而
假设我有一个包含以下列的 MySQL 表: |variables|1. | 'a' |2. | 'a b' |3. | 'a b c' |4. | ... | How can
我在一个表单上有 7 个单选按钮 其中3个属于一个组,4个属于另一个组 我希望 RadioButtons 在组内互斥。 这可以通过将它们放在两个 GroupBox 中来实现, 有没有什么办法可以不把它
我正在尝试使文本输入和复选框相互排斥。 默认情况下,文本框应包含“0”,复选框应为 false。如果用户选中该复选框,则该文本框应被清空。如果用户在文本框中输入值,则应取消选中该复选框。任何时候都不应
我已经在代码的注释中写下了我的问题。 我正在尝试使用 pthreads 使我的代码并行。首先,我想通过多个线程并行地在内存中写入大量数据。写入数据后,我想通过相同的线程执行此数据。执行数据后,我想读取
这个问题在这里已经有了答案: 关闭 13 年前。 Possible Duplicate: Monitor vs Mutex in c# 你好, 在这个网站上,我发现来自不同人的不同答案令人困惑。仍然
我需要调用一个返回唯一 id 的函数, int getid() { static id=0; id++; return id; } 多个线程需要调用这个函数,我的问题是我不确定我需要在哪里锁定互斥量,
请引用来自 WWDC 的视频 https://developer.apple.com/videos/play/wwdc2015/226/演讲者展示了我们可以在两个相同类型的 NSopeation 实例
概述: 我有一个使用 CoreData 的 iOS 应用程序> 有一个名为Animal的实体 它有一组记录Lion、Tiger和Elephant 我想将只有一个记录标记为收藏。 具有相同方法的相似实体
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: DLL thread safety 你好 我正在 MS VS C++ express 中编写一个 DLL 文
我的应用程序被迫使用第 3 方模块,如果在同一台机器上同时启动两个实例,该模块将使 Windows 蓝屏。为了解决这个问题,我的 C# 应用程序有一个互斥量: static Mutex mutex =
我是 Go 的新手,我想实现一个自定义的互斥机制,每个应用程序用户一次可以执行一个 goroutine。为简化起见,将 U1 和 U2 视为应用程序用户以及 F1(userId)、F2(userId)
我需要将单选和多选的功能组合到一个控件中。具体来说,我有多种选择。第一个与其他的互斥。所以,如果我选择第一个,就需要取消选中所有其他的。如果选择了其中一个,则必须取消选中第一个(如果已选择)。其他选项
我是一名优秀的程序员,十分优秀!