gpt4 book ai didi

performance - 为什么我的Rust程序比等效的Java程序慢?

转载 作者:行者123 更新时间:2023-12-03 11:47:07 26 4
gpt4 key购买 nike

我在Rust中使用二进制序列化和反序列化,并且发现二进制反序列化比Java慢几个数量级。为了消除例如由于分配和开销引起的开销的可能性,我只是从每个程序中读取一个二进制流。每个程序从磁盘上的一个二进制文件中读取文件,该文件包含一个包含输入值数量的4字节整数,以及一个连续的,由8字节big-endian IEEE 754编码的浮点数的块。这是Java实现:

import java.io.*;

public class ReadBinary {
public static void main(String[] args) throws Exception {
DataInputStream input = new DataInputStream(new BufferedInputStream(new FileInputStream(args[0])));
int inputLength = input.readInt();
System.out.println("input length: " + inputLength);
try {
for (int i = 0; i < inputLength; i++) {
double d = input.readDouble();
if (i == inputLength - 1) {
System.out.println(d);
}
}
} finally {
input.close()
}
}
}
这是Rust的实现:
use std::fs::File;
use std::io::{BufReader, Read};
use std::path::Path;

fn main() {
let args = std::env::args_os();
let fname = args.skip(1).next().unwrap();
let path = Path::new(&fname);
let mut file = BufReader::new(File::open(&path).unwrap());
let input_length: i32 = read_int(&mut file);
for i in 0..input_length {
let d = read_double_slow(&mut file);
if i == input_length - 1 {
println!("{}", d);
}
}
}

fn read_int<R: Read>(input: &mut R) -> i32 {
let mut bytes = [0; std::mem::size_of::<i32>()];
input.read_exact(&mut bytes).unwrap();
i32::from_be_bytes(bytes)
}

fn read_double_slow<R: Read>(input: &mut R) -> f64 {
let mut bytes = [0; std::mem::size_of::<f64>()];
input.read_exact(&mut bytes).unwrap();
f64::from_be_bytes(bytes)
}
我正在输出最后一个值,以确保实际上已读取所有输入。在我的机器上,当文件包含(相同)3000万个随机生成的 double 数据时,Java版本运行时间为0.8秒,而Rust版本运行时间为40.8秒。
由于怀疑Rust的字节解释本身效率低下,我使用自定义浮点反序列化实现重试了它。内部结构是 almost exactly the same as what's being done in Rust's Reader,没有 IoResult包装器:
fn read_double<R : Reader>(input: &mut R, buffer: &mut [u8]) -> f64 {
use std::mem::transmute;
match input.read_at_least(8, buffer) {
Ok(n) => if n > 8 { fail!("n > 8") },
Err(e) => fail!(e)
};
let mut val = 0u64;
let mut i = 8;
while i > 0 {
i -= 1;
val += buffer[7-i] as u64 << i * 8;
}
unsafe {
transmute::<u64, f64>(val);
}
}
为了使这项工作有效,我对早期的Rust代码所做的唯一更改是创建了一个8字节的切片,将其传入并(重新)用作 read_double函数中的缓冲区。这产生了显着的性能提升,平均运行时间约为5.6秒。不幸的是,它仍然比Java版本明显慢(并且更冗长!),从而难以扩展到更大的输入集。是否可以做一些事情以使在Rust中运行起来更快?更重要的是,是否可以通过将这些更改合并到默认 Reader实现本身中的方式进行更改,以减轻二进制I/O的痛苦?
作为引用,这是我用来生成输入文件的代码:
import java.io.*;
import java.util.Random;

public class MakeBinary {
public static void main(String[] args) throws Exception {
DataOutputStream output = new DataOutputStream(new BufferedOutputStream(System.out));
int outputLength = Integer.parseInt(args[0]);
output.writeInt(outputLength);
Random rand = new Random();
for (int i = 0; i < outputLength; i++) {
output.writeDouble(rand.nextDouble() * 10 + 1);
}
output.flush();
}
}
(请注意,在我的测试计算机上,生成随机数并将其写入磁盘仅需3.8秒。)

最佳答案

当您不进行优化而进行构建时,它通常会比Java中的速度慢。但是通过优化(rustc -Ocargo --release)来构建它,它应该非常快。如果它的标准版本仍然以较慢的速度结束,则应该仔细检查该问题,以找出缓慢的原因-也许正在内联一些不应该,不应该或应该进行的优化。没有发生。

关于performance - 为什么我的Rust程序比等效的Java程序慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65364950/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com