- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
我有一台配备 Intel Core 2 Duo 2.4GHz CPU 和 2x4Gb DDR3 模块 1066MHz 的笔记本电脑。
我希望这个内存可以以 1067 MiB/sec 的速度运行,只要有两个 channel ,最大速度就是 2134 MiB/sec(如果操作系统内存调度程序允许) .
我制作了一个小型 Java 应用程序来测试:
private static final int size = 256 * 1024 * 1024; // 256 Mb
private static final byte[] storage = new byte[size];
private static final int s = 1024; // 1Kb
private static final int duration = 10; // 10sec
public static void main(String[] args) {
long start = System.currentTimeMillis();
Random rnd = new Random();
byte[] buf1 = new byte[s];
rnd.nextBytes(buf1);
long count = 0;
while (System.currentTimeMillis() - start < duration * 1000) {
long begin = (long) (rnd.nextDouble() * (size - s));
System.arraycopy(buf1, 0, storage, (int) begin, s);
++count;
}
double totalSeconds = (System.currentTimeMillis() - start) / 1000.0;
double speed = count * s / totalSeconds / 1024 / 1024;
System.out.println(count * s + " bytes transferred in " + totalSeconds + " secs (" + speed + " MiB/sec)");
byte[] buf2 = new byte[s];
count = 0;
start = System.currentTimeMillis();
while (System.currentTimeMillis() - start < duration * 1000) {
long begin = (long) (rnd.nextDouble() * (size - s));
System.arraycopy(storage, (int) begin, buf2, 0, s);
Arrays.fill(buf2, (byte) 0);
++count;
}
totalSeconds = (System.currentTimeMillis() - start) / 1000.0;
speed = count * s / totalSeconds / 1024 / 1024;
System.out.println(count * s + " bytes transferred in " + totalSeconds + " secs (" + speed + " MiB/sec)");
}
我预计结果会低于 2134 MiB/秒,但我得到了以下结果:
17530212352 bytes transferred in 10.0 secs (1671.811328125 MiB/sec)
31237926912 bytes transferred in 10.0 secs (2979.080859375 MiB/sec)
速度接近 3 GiB/秒怎么可能?
最佳答案
这里有很多事情在起作用。
首先:formula for memory transfer rate of DDR3是
memory clock rate
× 4 (for bus clock multiplier)
× 2 (for data rate)
× 64 (number of bits transferred)
/ 8 (number of bits/byte)
= memory clock rate × 64 (in MB/s)
对于 DDR3-1066(主频为 133⅓ MHz
),我们获得理论内存带宽8533⅓ MB/s
或 8138.02083333... MiB/s
表示单 channel ,17066⅔ MB/s
,或 16276.0416666...MiB/s
表示双 channel 。
第二:传输一大块数据比传输许多小块数据要快。
第三:测试忽略了可能发生的缓存效果。
第四:如果要进行时间测量,应该使用System.nanoTime()
。这种方法更精确。
这是测试程序的重写版本1。
import java.util.Random;
public class Main {
public static void main(String... args) {
final int SIZE = 1024 * 1024 * 1024;
final int RUNS = 8;
final int THREADS = 8;
final int TSIZE = SIZE / THREADS;
assert (TSIZE * THREADS == THREADS) : "TSIZE must divide SIZE!";
byte[] src = new byte[SIZE];
byte[] dest = new byte[SIZE];
Random r = new Random();
long timeNano = 0;
Thread[] threads = new Thread[THREADS];
for (int i = 0; i < RUNS; ++i) {
System.out.print("Initializing src... ");
for (int idx = 0; idx < SIZE; ++idx) {
src[idx] = ((byte) r.nextInt(256));
}
System.out.println("done!");
System.out.print("Starting test... ");
for (int idx = 0; idx < THREADS; ++idx) {
final int from = TSIZE * idx;
threads[idx]
= new Thread(() -> {
System.arraycopy(src, from, dest, 0, TSIZE);
});
}
long start = System.nanoTime();
for (int idx = 0; idx < THREADS; ++idx) {
threads[idx].start();
}
for (int idx = 0; idx < THREADS; ++idx) {
try {
threads[idx].join();
} catch (InterruptedException e) {
e.printStackTrace();
}
}
timeNano += System.nanoTime() - start;
System.out.println("done!");
}
double timeSecs = timeNano / 1_000_000_000d;
System.out.println("Transfered " + (long) SIZE * RUNS
+ " bytes in " + timeSecs + " seconds.");
System.out.println("-> "
+ ((long) SIZE * RUNS / timeSecs / 1024 / 1024 / 1024)
+ " GiB/s");
}
}
这样,尽可能多地减少“其他计算”,并且(几乎)只测量通过 System.arraycopy(...)
的内存复制率。该算法在缓存方面可能仍然存在问题。
对于我的系统(双 channel DDR3-1600),我得到大约 6 GiB/s
,而理论限制大约是 25 GiB/s
(包括 DualChannel )。
As was pointed out by Nick Mertin ,JVM 引入了一些开销。因此,预计您无法达到理论极限。
1 旁注:要运行程序,必须给 JVM 更多的堆空间。就我而言,4096 MB 就足够了。
关于java - 程序超过理论内存传输率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31213023/
我是 C 语言新手,我编写了这个 C 程序,让用户输入一年中的某一天,作为返回,程序将输出月份以及该月的哪一天。该程序运行良好,但我现在想简化该程序。我知道我需要一个循环,但我不知道如何去做。这是程序
我一直在努力找出我的代码有什么问题。这个想法是创建一个小的画图程序,并有红色、绿色、蓝色和清除按钮。我有我能想到的一切让它工作,但无法弄清楚代码有什么问题。程序打开,然后立即关闭。 import ja
我想安装screen,但是接下来我应该做什么? $ brew search screen imgur-screenshot screen
我有一个在服务器端工作的 UDP 套接字应用程序。为了测试服务器端,我编写了一个简单的 python 客户端程序,它发送消息“hello world how are you”。服务器随后应接收消息,将
我有一个 shell 脚本,它运行一个 Python 程序来预处理一些数据,然后运行一个 R 程序来执行一些长时间运行的任务。我正在学习使用 Docker 并且我一直在运行 FROM r-base:l
在 Linux 中。我有一个 c 程序,它读取一个 2048 字节的文本文件作为输入。我想从 Python 脚本启动 c 程序。我希望 Python 脚本将文本字符串作为参数传递给 c 程序,而不是将
对于一个类,我被要求编写一个 VHDL 程序,该程序接受两个整数输入 A 和 B,并用 A+B 替换 A,用 A-B 替换 B。我编写了以下程序和测试平台。它完成了实现和行为语法检查,但它不会模拟。尽
module Algorithm where import System.Random import Data.Maybe import Data.List type Atom = String ty
我想找到两个以上数字的最小公倍数 求给定N个数的最小公倍数的C++程序 最佳答案 int lcm(int a, int b) { return (a/gcd(a,b))*b; } 对于gcd,请查看
这个程序有错误。谁能解决这个问题? Error is :TempRecord already defines a member called 'this' with the same paramete
当我运行下面的程序时,我在 str1 和 str2 中得到了垃圾值。所以 #include #include #include using namespace std; int main() {
这是我的作业: 一对刚出生的兔子(一公一母)被放在田里。兔子在一个月大时可以交配,因此在第二个月的月底,每对兔子都会生出两对新兔子,然后死去。 注:在第0个月,有0对兔子。第 1 个月,有 1 对兔子
我编写了一个程序,通过对字母使用 switch 命令将十进制字符串转换为十六进制,但是如果我使用 char,该程序无法正常工作!没有 switch 我无法处理 9 以上的数字。我希望你能理解我,因为我
我是 C++ 新手(虽然我有一些 C 语言经验)和 MySQL,我正在尝试制作一个从 MySQL 读取数据库的程序,我一直在关注这个 tutorial但当我尝试“构建”解决方案时出现错误。 (我正在使
仍然是一个初学者,只是尝试使用 swift 中的一些基本函数。 有人能告诉我这段代码有什么问题吗? import UIKit var guessInt: Int var randomNum = arc
我正在用 C++11 编写一个函数,它采用 constant1 + constant2 形式的表达式并将它们折叠起来。 constant1 和 constant2 存储在 std::string 中,
我用 C++ 编写了这段代码,使用运算符重载对 2 个矩阵进行加法和乘法运算。当我执行代码时,它会在第 57 行和第 59 行产生错误,非法结构操作(两行都出现相同的错误)。请解释我的错误。提前致谢:
我是 C++ 的初学者,我想编写一个简单的程序来交换字符串中的两个字符。 例如;我们输入这个字符串:“EXAMPLE”,我们给它交换这两个字符:“E”和“A”,输出应该类似于“AXEMPLA”。 我在
我需要以下代码的帮助: 声明 3 个 double 类型变量,每个代表三角形的三个边中的一个。 提示用户为第一面输入一个值,然后 将用户的输入设置为您创建的代表三角形第一条边的变量。 将最后 2 个步
我是新来的,如果问题不好请见谅 任务:将给定矩阵旋转180度 输入: 1 4 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 输出: 16 15 14 13 12 11
我是一名优秀的程序员,十分优秀!