- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我有一个JMH多线程测试:
@State(Scope.Benchmark)
@BenchmarkMode(Mode.Throughput)
@OutputTimeUnit(TimeUnit.MICROSECONDS)
@Fork(value = 1, jvmArgsAppend = { "-Xmx512m", "-server", "-XX:+AggressiveOpts","-XX:+UnlockDiagnosticVMOptions",
"-XX:+UnlockExperimentalVMOptions", "-XX:+PrintAssembly", "-XX:PrintAssemblyOptions=intel",
"-XX:+PrintSignatureHandlers"})
@Measurement(iterations = 5, time = 5, timeUnit = TimeUnit.SECONDS)
@Warmup(iterations = 3, time = 2, timeUnit = TimeUnit.SECONDS)
public class LinkedQueueBenchmark {
private static final Unsafe unsafe = UnsafeProvider.getUnsafe();
private static final long offsetObject;
private static final long offsetNext;
private static final int THREADS = 5;
private static class Node {
private volatile Node next;
public Node() {}
}
static {
try {
offsetObject = unsafe.objectFieldOffset(LinkedQueueBenchmark.class.getDeclaredField("object"));
offsetNext = unsafe.objectFieldOffset(Node.class.getDeclaredField("next"));
} catch (Exception ex) { throw new Error(ex); }
}
protected long t0,t1,t2,t3,t4,t5,t6,t7;
private volatile Node object = new Node(null);
@Threads(THREADS)
@Benchmark
public Node doTestCasSmart() {
Node current, o = new Node();
for(;;) {
current = this.object;
if (unsafe.compareAndSwapObject(this, offsetObject, current, o)) {
//current.next = o; //Special line:
break;
} else {
LockSupport.parkNanos(1);
}
}
return current;
}
}
据我所知,这是 CPU 缓存发生的事情,也许它正在清理存储缓冲区。如果我将它替换为基于锁的方法,没有 CAS,性能将是 11-20 ops/us。
我尝试使用 LinuxPerfAsmProfiler 和 PrintAssembly,在第二种情况下我看到:
....[Hottest Regions]...............................................................................
25.92% 17.93% [0x7f1d5105fe60:0x7f1d5105fe69] in SpinPause (libjvm.so)
17.53% 20.62% [0x7f1d5119dd88:0x7f1d5119de57] in ParMarkBitMap::live_words_in_range(HeapWord*, oopDesc*) const (libjvm.so)
10.81% 6.30% [0x7f1d5129cff5:0x7f1d5129d0ed] in ParallelTaskTerminator::offer_termination(TerminatorTerminator*) (libjvm.so)
7.99% 9.86% [0x7f1d3c51d280:0x7f1d3c51d3a2] in com.jad.generated.LinkedQueueBenchmark_doTestCasSmart::doTestCasSmart_thrpt_jmhStub
谁能给我解释一下到底发生了什么?为什么这么慢?这里的存储负载屏障在哪里?为什么 putOrdered 不起作用?以及如何解决?
最佳答案
规则:与其寻找“高级”答案,不如先寻找愚蠢的错误。
SpinPause
、ParMarkBitMap::live_words_in_range(HeapWord*, oopDesc*)
和 ParallelTaskTerminator::offer_termination(TerminatorTerminator*)
来自 GC 线程.这很可能意味着基准测试所做的大部分工作都是 GC。实际上,运行未注释的“特殊行” -prof gc
会产生:
# Run complete. Total time: 00:00:43
Benchmark Mode Cnt Score Error Units
LQB.doTestCasSmart thrpt 5 5.930 ± 3.867 ops/us
LQB.doTestCasSmart:·gc.time thrpt 5 29970.000 ms
因此,在 43 秒的运行时间中,您用了 30 秒进行 GC。或者,即使是普通的 -verbose:gc
也会显示它:
Iteration 3: [Full GC (Ergonomics) 408188K->1542K(454656K), 0.0043022 secs]
[GC (Allocation Failure) 60422K->60174K(454656K), 0.2061024 secs]
[GC (Allocation Failure) 119054K->118830K(454656K), 0.2314572 secs]
[GC (Allocation Failure) 177710K->177430K(454656K), 0.2268396 secs]
[GC (Allocation Failure) 236310K->236054K(454656K), 0.1718049 secs]
[GC (Allocation Failure) 294934K->294566K(454656K), 0.2265855 secs]
[Full GC (Ergonomics) 294566K->147408K(466432K), 0.7139546 secs]
[GC (Allocation Failure) 206288K->205880K(466432K), 0.2065388 secs]
[GC (Allocation Failure) 264760K->264312K(466432K), 0.2314117 secs]
[GC (Allocation Failure) 323192K->323016K(466432K), 0.2183271 secs]
[Full GC (Ergonomics) 323016K->322663K(466432K), 2.8058725 secs]
2.8 秒的完整 GC,这很糟糕。在以 5 秒运行时间为界的迭代中,GC 花费了大约 5 秒。这也很糟糕。
这是为什么呢?好吧,您正在那里构建链表。当然,队列的头部是不可到达的,并且应该收集从头部到您的 object
的所有内容。但收集不是即时的。队列越长,消耗的内存越多,GC 遍历它的工作就越多。这是一个削弱执行力的正反馈循环。由于那里的队列元素无论如何都是可收集的,因此此反馈循环永远不会到达 OOME。在新的 head
字段中存储一个初始的 object
将使测试最终 OOME。
因此,坦率地说,您的问题与 putOrdered
、内存障碍或队列性能无关。我认为您需要重新考虑您实际测试的内容。设计测试以使 transient 内存占用在每次 @Benchmark
调用中保持相同本身就是一门艺术。
关于Java无锁性能JMH,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33065282/
我在网上找不到关于 here 的任何信息,谁能告诉我 ops/us, Cnt, Score, Error 是什么意思。 最佳答案 ops/us - 每微秒的操作(基准方法执行) Cnt - 试验总数(
我在网上找不到关于 here 的任何信息,谁能告诉我 ops/us, Cnt, Score, Error 是什么意思。 最佳答案 ops/us - 每微秒的操作(基准方法执行) Cnt - 试验总数(
在我的 jmh 课上,我正在使用 @BenchmarkMode(Mode.SampleTime) @Measurement(iterations = 10) @Threads(value = 10)
我已经将其视为微基准测试中的潜在陷阱之一。如果您指定@Measurement(或@Warmup)将运行固定的时间量,这意味着,当比较不同的运行(例如,不同的平台、不同版本的 VM 等)时,您将获得更少
想开始做我从现在开始写的方法的基准测试,有很长一段时间的动力,终于决定从昨天开始这样做。但我对我的设置过程感到震惊。 我已经正确安装了 JMH 插件。 所有导入工作正常。 甚至我的 POM 也没有显示
我正在使用 JMH,但发现有些难以理解:我有一种方法用 @Benchmark 注释。我设置了 measurementIterations(3) .该方法被调用了 3 次,但在每次迭代调用中,该函数运行
假设我有一个带有两个参数的 JMH 测试: @Param( { "1", "2", 4", "8", "16" } ) int param1; @Param( { "1", "2", 4", "8",
我正在使用tutorial学习JMH基准测试。 我注意到here中的功能benchMurmur3_128有2个与预热相关的东西。 因此,我对Fork注释中的热身属性和带有迭代属性的Warmup注释之间
我不明白 JMH 结果中的 score 属性?我也没有在网上找到任何关于它的信息。 谁能告诉我,它是关于什么的?据我所知,高分比低分好,但这究竟是什么意思,它是如何计算的? 最佳答案 JMH 支持以下
官方资源 官方Github样例 应用场景 对要使用的数据结构不确定,不知道谁的性能更好 对历史方法代码重构,要评判改造之后的性能提升多少 ( 我要做的场景 )
我用 JMH 测试我的程序性能。并且无法配置堆大小。我想知道为什么它不起作用。 问题: 为什么 JMH 不接受堆大小配置? JMH 是否在没有 jvmArgs 方法的情况下吸收 idea 堆大小设置?
我正在使用 JMH 对 DOM 解析器进行基准测试。我得到了非常奇怪的结果,因为第一次迭代实际上比后面的迭代运行得更快 谁能解释为什么会发生这种情况?另外,百分位数和所有数字是什么意思,为什么它在第三
我正在对 Spring Boot 应用程序启动时间进行基准测试。完整的项目是here ,这是 WIP,但相关类如下。 抽象基本状态: public abstract class BootAbstrac
我有:这样的方法: @GenerateMicroBenchmark public static void calculateArraySummary(String[] args) { // c
我读到了JMH并尝试了提供的示例。 我想做的是测量以下场景的统计数据, [ 1] client order -> [2] server -> [3] start processing the orde
我正在玩 Math.max 看看它是否受到分支预测的影响(不,至少在 x64 的 JDK 上不是,有一个 cmovl),如果按位实现可以与默认实现竞争。所有测试如下所示: @Threads(4) @S
我在 JMH 中看到一个常见问题 ConstantFold ,但是如果我有逆问题怎么办?我需要静态最终字段作为参数。例如,它可以是某些算法的某个常量变量。但在 java-doc 中我看到: {@lin
我正在尝试一个非常快的方法(~20 us/op),它似乎工作得很好,除了一些随机很长的迭代: Iteration 63: 14.319 us/op Iteration 64: 13.128 us/
我想看看是否有一种方法可以告诉 JMH 仅测量微基准调用的所有方法中的一个特定方法。 我想使用单元测试作为基础自动创建微基准,因此我不必手动构建微基准。在我的研究中,我有一个大型代码库,我在其中进行了
我正在运行 JMH 基准测试: Options opt = new OptionsBuilder() .output("C:/test/infinis
我是一名优秀的程序员,十分优秀!