- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我正在使用 BlockingQueue:s(同时尝试 ArrayBlockingQueue 和 LinkedBlockingQueue)在我目前正在处理的应用程序中的不同线程之间传递对象。性能和延迟在这个应用程序中相对重要,所以我很好奇使用 BlockingQueue 在两个线程之间传递对象需要多少时间。为了衡量这一点,我编写了一个带有两个线程(一个消费者和一个生产者)的简单程序,我让生产者将时间戳(使用 System.nanoTime() 获取)传递给消费者,请参见下面的代码。
我记得在某个论坛上的某个地方读到,尝试此操作的其他人花费了大约 10 微秒(不知道使用的是什么操作系统和硬件),所以当我在我的计算机上花费了大约 30 微秒时,我并不感到惊讶windows 7 box(Intel E7500 core 2 duo CPU, 2.93GHz),同时在后台运行许多其他应用程序。但是,当我在速度更快的 Linux 服务器(两个 Intel X5677 3.46GHz 四核 CPU,运行内核为 2.6.26-2-amd64 的 Debian 5)上进行相同测试时,我感到非常惊讶。我预计延迟会比我的 windows box 低,但相反,它要高得多 - ~75 - 100 微秒!这两个测试都是使用 Sun 的 Hotspot JVM 版本 1.6.0-23 完成的。
有没有其他人在 Linux 上做过类似的测试并得到类似的结果?或者有谁知道为什么它在 Linux 上慢得多(具有更好的硬件),与 Windows 相比,Linux 上的线程切换是否会慢得多?如果是这样的话,似乎 windows 实际上更适合某些类型的应用程序。非常感谢帮助我理解相对较高数字的任何帮助。
编辑:
在 DaveC 发表评论后,我还做了一个测试,我将 JVM(在 Linux 机器上)限制为单个核心(即所有线程在同一核心上运行)。这极大地改变了结果——延迟降低到 20 微秒以下,即比 Windows 机器上的结果要好。我还做了一些测试,将生产者线程限制在一个核心,将消费者线程限制在另一个核心(尝试将它们放在同一个套接字和不同的套接字上),但这似乎没有帮助 - 延迟仍然约为 75微秒。顺便说一句,这个测试应用程序几乎是我在执行测试时在机器上运行的全部内容。
有谁知道这些结果是否有意义?如果生产者和消费者在不同的内核上运行,它真的应该慢得多吗?任何输入都非常感谢。
再次编辑(1 月 6 日):
我对代码和运行环境进行了不同的更改:
import java.util.concurrent.ArrayBlockingQueue;
import java.util.concurrent.CyclicBarrier;
public class QueueTest {
ArrayBlockingQueue<Long> queue = new ArrayBlockingQueue<Long>(10);
Thread consumerThread;
CyclicBarrier barrier = new CyclicBarrier(2);
static final int RUNS = 500000;
volatile int sleep = 1000;
public void start() {
consumerThread = new Thread(new Runnable() {
@Override
public void run() {
try {
barrier.await();
for(int i = 0; i < RUNS; i++) {
consume();
}
} catch (Exception e) {
e.printStackTrace();
}
}
});
consumerThread.start();
try {
barrier.await();
} catch (Exception e) { e.printStackTrace(); }
for(int i = 0; i < RUNS; i++) {
try {
if(sleep > 0)
Thread.sleep(sleep);
produce();
} catch (Exception e) {
e.printStackTrace();
}
}
}
public void produce() {
try {
queue.put(System.nanoTime());
} catch (InterruptedException e) {
}
}
public void consume() {
try {
long t = queue.take();
long now = System.nanoTime();
long time = (now - t) / 1000; // Divide by 1000 to get result in microseconds
if(sleep > 0) {
System.out.println("Time: " + time);
}
} catch (Exception e) {
e.printStackTrace();
}
}
public static void main(String[] args) {
QueueTest test = new QueueTest();
System.out.println("Starting...");
// Run first once, ignoring results
test.sleep = 0;
test.start();
// Run again, printing the results
System.out.println("Starting again...");
test.sleep = 1000;
test.start();
}
}
最佳答案
您的测试不能很好地衡量队列切换延迟,因为您有一个线程从队列中读取同步写入 System.out
(当它在它的时候做一个字符串和长连接)在它再次需要之前。要正确衡量这一点,您需要将此 Activity 移出该线程,并在获取线程中尽可能少做工作。
您最好只在接受者中进行计算(当时)并将结果添加到其他一些集合中,该集合由另一个输出结果的线程定期排出。我倾向于通过添加到通过 AtomicReference 访问的适当大小的数组支持结构中来做到这一点(因此,报告线程只需使用该存储结构的另一个实例对该引用进行 getAndSet 即可获取最新一批结果;例如 make 2列表,将其中一个设置为主动,每个 xsa 线程都会唤醒并交换主动和被动线程)。然后您可以报告一些分布而不是每个结果(例如十分位数范围),这意味着您不会在每次运行时生成大量日志文件并为您打印有用的信息。
FWIW 我同意 Peter Lawrey 所说的时间,如果延迟真的很重要,那么您需要考虑以适当的 CPU 关联性进行忙等待(即为该线程专门分配一个核心)
1 月 6 日之后编辑
If I remove the call to Thread.sleep () and instead let both the producer and consumer call barrier.await() in every iteration (the consumer calls it after having printed the elapsed time to the console), the measured latency is reduced from 60 microseconds to below 10 microseconds. If running the threads on the same core, the latency gets below 1 microsecond. Can anyone explain why this reduced the latency so significantly?
java.util.concurrent.locks.LockSupport#park
之间的区别(以及相应的
unpark
)和
Thread#sleep
.大多数 j.u.c.东西建立在
LockSupport
(通常通过
AbstractQueuedSynchronizer
提供或直接通过
ReentrantLock
提供)并且此(在 Hotspot 中)解析为
sun.misc.Unsafe#park
(和
unpark
),这往往会落入 pthread(posix 线程)库的手中。通常
pthread_cond_broadcast
醒来和
pthread_cond_wait
或
pthread_cond_timedwait
对于诸如
BlockingQueue#take
之类的事情.
Thread#sleep
实际上是实现的(因为我从来没有遇到过不是基于条件的等待的低延迟),但我想它会导致它以比 pthread 信号机制更积极的方式被调度程序降级,那就是延迟差异的原因是什么。
关于Linux 上的 Java BlockingQueue 延迟高,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4584240/
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,
Linux 管道可以缓冲多少数据?这是可配置的吗? 如果管道的两端在同一个进程中,但线程不同,这会有什么不同吗? 请注意:这个“同一个进程,两个线程”的问题是理论上的边栏,真正的问题是关于缓冲的。 最
我找到了here [最后一页] 一种有趣的通过 Linux 启动 Linux 的方法。不幸的是,它只是被提及,我在网上找不到任何有用的链接。那么有人听说过一种避免引导加载程序而使用 Linux 的方法
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我试图了解 ld-linux.so 如何在 Linux 上解析对版本化符号的引用。我有以下文件: 测试.c: void f(); int main() { f(); } a.c 和 b.c:
与 RetroPie 的工作原理类似,我可以使用 Linux 应用程序作为我的桌面环境吗?我实际上并不需要像实际桌面和安装应用程序这样的东西。我只需要一种干净简单的方法来在 RaspberryPi 上
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎不是关于 a specific programming problem, a softwar
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 10 年前。 Improve thi
有什么方法可以覆盖现有的源代码,我应该用 PyQt、PyGTK、Java 等从头开始构建吗? 最佳答案 如果您指的是软件本身而不是它所连接的存储库,那么自定义应用程序的方法就是 fork 项目。据我所
我的情况是:我在一个磁盘上安装了两个 linux。我将第一个安装在/dev/sda1 中,然后在/dev/sda2 中安装第二个然后我运行第一个系统,我写了一个脚本来在第一个系统运行时更新它。
我在 i2c-0 总线上使用地址为 0x3f 的系统监视器设备。该设备在设备树中配置有 pmbus 驱动程序。 问题是,加载 linux 内核时,这个“Sysmon”设备没有供电。因此,当我在总线 0
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 11 年前。 Improve thi
我正试图在 linux 模块中分配一大块内存,而 kalloc 做不到。 我知道唯一的方法是使用 alloc_bootmem(unsigned long size) 但我只能从 linux 内核而不是
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎不是关于 a specific programming problem, a softwar
我有 .sh 文件来运行应用程序。在该文件中,我想动态设置服务器名称,而不是每次都配置。 我尝试了以下方法,它在 CentOS 中运行良好。 nohup /voip/java/jdk1.8.0_71/
我是在 Linux 上开发嵌入式 C++ 程序的新手。我有我的 Debian 操作系统,我在其中开发和编译了我的 C++ 项目(一个简单的控制台进程)。 我想将我的应用程序放到另一个 Debian 操
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
我使用4.19.78版本的稳定内核,我想找到带有企鹅二进制数据的C数组。系统启动时显示。我需要在哪里搜索该内容? 我在 include/linux/linux_logo.h 文件中只找到了一些 Log
我知道可以使用 gdb 的服务器模式远程调试代码,我知道可以调试针对另一种架构交叉编译的代码,但是是否可以更进一步,从远程调试 Linux 应用程序OS X 使用 gdbserver? 最佳答案 当然
是否有任何可能的方法来运行在另一个 Linux 上编译的二进制文件?我知道当然最简单的是在另一台机器上重建它,但假设我们唯一能得到的是一个二进制文件,那么这可能与否? (我知道这可能并不容易,但我只是
我是一名优秀的程序员,十分优秀!