file - 在 Rust 中迭代文件字节的更快方法是什么？-6ren

file - 在 Rust 中迭代文件字节的更快方法是什么？

转载作者：行者123 更新时间：2023-12-05 01:30:54

25

4

我是 Rust 的新手，我正在尝试想出一个简单的备份程序。第一步，文件被分解成可变长度的 block (通过 content-defined chunking )。

为此，我必须逐字节读取文件。不幸的是，我发现这个过程非常缓慢。使用 dd 我可以以高达 350 MiB/s 的速度读取。尽管如此，使用以下 Rust 代码我只能得到大约 45 MiB/s。 (我在那里遗漏了所有分 block 的东西。)

我正在阅读的文件大小约为 7.7 GiB。

// main.rs


use std::fs::File;
use std::io::BufReader;
use std::io::{Read, Bytes};
use std::time::{Instant, Duration};

fn main() {
    let file = File::open("something_big.tar").expect("Cannot read file.");
    
    let mut buf = BufReader::new(file);

    let mut x = 0u8;

    let mut num_bytes = 0usize;

    let t1 = Instant::now();

    for b in buf.bytes() {
        match b {
            Ok(b) => {
                x += b;
                num_bytes += 1;
                // chunking stuff omitted
            },
            Err(_) => panic!("I/O Error")
        }
    }

    let dur = t1.elapsed().as_secs_f64();
    let mut num_bytes = (num_bytes as f64) / 1_048_576f64;

    println!("RESULT: {}", x);

    println!("Read speed: {:.1} MiB / s", num_bytes / dur);
}

问题:使用 Rust 快速遍历文件字节的更好方法是什么？我的代码有什么问题？

我知道也许我可以使用 memmap crate 或类似的东西——但是:我不想那样做。

最佳答案

我不确定为什么会这样，但我发现从 BufReader 手动 read()ing 时速度要快得多。对于下面的 512 字节数组，我看到大约 2700MiB/s，对于单字节数组，它大约是 300 MiB/s。

Bytes 迭代器显然会产生一些开销，此实现或多或少是从其 IntoIterator 实现中复制粘贴的。

use std::fs::File;
use std::io::{BufReader, ErrorKind};
use std::io::Read;
use std::time::Instant;

fn main() {
    let file = File::open("some-3.3gb-file")
        .expect("Cannot read file.");

    let mut buf = BufReader::new(file);

    let mut x = 0u8;

    let mut num_bytes = 0usize;

    let t1 = Instant::now();

    let mut bytes = [0; 512];
    loop {
        match buf.read(&mut bytes) {
            Ok(0) => break,
            Ok(n) => {
                for i in 0..n {
                    num_bytes += 1;
                    x += bytes[i];
                }
            }
            Err(ref e) if e.kind() == ErrorKind::Interrupted => continue,
            Err(e) => panic!("{:?}", e),
        };
    }

    let dur = t1.elapsed().as_secs_f64();
    let mut num_bytes = (num_bytes as f64) / 1_048_576f64;

    println!("RESULT: {}", x);

    println!("Read speed: {:.1} MiB / s for {}", num_bytes / dur, num_bytes);
}

关于file - 在 Rust 中迭代文件字节的更快方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66645551/

25

4

0

文章推荐： javascript - 如何等待多个提取在 JavaScript 中完成？

文章推荐： c# - 发布 Nuget 包时有关 PackageReference 版本的最佳实践？

rust - 使用来自 Rust 动态库的损坏的 Rust 函数
编辑备注由于 Rust(版本:1.42)仍然没有稳定的 ABI ，推荐使用extern (目前相当于extern "C"(将来可能会改变))否则，可能需要重新编译库。 This article解释如
rust - 我可以使用 Rust 词法分析器或解析器来检索 Rust 文件中的函数列表吗？
词法分析器/解析器文件位于 here非常大，我不确定它是否适合只检索 Rust 函数列表。也许我自己编写/使用另一个库是更好的选择？最终目标是创建一种执行管理器。为了上下文化，它将能够读取包装在函数
rust - Rust 中枚举的展平向量
我试图在 Rust 中展平 Enum 的向量，但我遇到了一些问题: enum Foo { A(i32), B(i32, i32), } fn main() { let vf =
rust - Rust 中的裸机自旋锁实现
我正在 64 位模式下运行的 Raspberry Pi 3 上使用 Rust 进行裸机编程。我已经实现了一个自旋锁，如下所示: use core::{sync::atomic::{AtomicBool
rust - Rust 如何用循环特征边界编译这个例子？
我无法理解以下示例是如何从 this code 中提炼出来的, 编译: trait A: B {} trait B {} impl B for T where T: A {} struct Foo;
rust - Rust 移动语义实际上是如何工作的
在我写了一些代码和阅读了一些文章之后，我对 Rust 中的移动语义有点困惑，我认为值移动后，它应该被释放，内存应该是无效的。所以我尝试写一些代码来作证。第一个例子 #[derive(Debug)]
rust - Rust 引用书中的问题
https://doc.rust-lang.org/reference/types/closure.html#capture-modes struct SetVec { set: HashSe
rust - Rust 是否支持具有运行时确定值的常量泛型类型？
考虑 const-generic 数据结构的经典示例:方矩阵。 struct Matrix { inner: [[T; N]; N] } 我想返回一个结构体，其 const 参数是动态定义的:
rust - Rust 中的引用分配
以下代码无法编译，因为 x在移动之后使用(因为 x 具有类型 &mut u8 ，它没有实现 Copy 特性) fn main() { let mut a: u8 = 1; let x:
rust - Rust 中只有一个变量名和一个分号的语句是什么意思？
我在玩 Rust，发现了下面的例子: fn main() { let mut x = [3, 4, 5].to_vec(); x; println!("{:?}", x); }
rust - Rust 宏可以跨版本共享吗？
假设一个 Rust 2018 宏定义了一个 async里面的功能。它将使用的语法与 Rust 2015 不兼容。因此，如果您使用 2015 版编译您的 crate，那么宏中的扩展代码不会与它冲突吗？
rust - Rust 中的泛化迭代方法
假设我有一些 Foo 的自定义集合s: struct Bar {} struct Foo { bar: Bar } struct SubList { contents: Vec, }
rust - Rust 如何结合它的多个生命周期？
代码如下: fn inner(x:&'a i32, _y:&'b i32) -> &'b i32 { x } fn main() { let a = 1; { let b
rust - Rust 中的生命周期如何为函数工作？
在lifetime_things的定义中，'b的生命周期比'a长，但实际上当我调用这个函数时，x1比y1长，但是这样可以编译成功: //here you could see 'b:'a means
rust - 无法将内值移出Arc rust
我正在尝试检索 FLTK-RS Widget 周围的 Arc Mutex 包装器的内部值: pub struct ArcWidget(Arc>); impl ArcWidget{ pub
rust - Rust 元组参数的执行顺序是什么？
如下代码所示，我想封装一个定时函数，返回一个闭包的结果和执行时间。 use tap::prelude::Pipe; use std::time::{Instant, Duration}; pub fn
rust - Rust:特征中的类型引用
我想实现自己的通用容器，这是我正在使用的特征的片段: pub trait MyVec where Self: Default + Clone + IntoIterator, Self:
rust - Rust:如何在功能链中使用await
所需代码: 注释掉的块可以编译并工作，但是我想从嵌套的匹配样式转变为更简洁的函数链 async fn ws_req_resp(msg: String, conn: PgConn) -> Result>
rust - rust 特质问题特质不能制成对象
我正在尝试编写一些代码，该代码将生成具有随机值的随机结构。对于结构，我具有以下特征和帮助程序宏: use rand::{thread_rng, Rng}; use std::fmt; pub trai
rust - Rust:Fn成员签名中使用的Struct泛型类型参数需要命名生命周期
我有一个带有函数成员的结构: struct Foo { fun: Box, } type FooI = Foo; 这不起作用: error[E0106]: missing lifetime s

首页

博学

6Ren·AI

商城

file - 在 Rust 中迭代文件字节的更快方法是什么？