gpt4 book ai didi

string - Rust 编程竞赛中最快的惯用 I/O 例程?

转载 作者:行者123 更新时间:2023-12-03 11:23:27 25 4
gpt4 key购买 nike

我的问题已得到部分回答,因此我根据我从评论和其他实验中学到的东西对其进行了修改。

总而言之,我想要一个用于编程竞赛的快速 I/O 例程,其中问题通过单个文件解决,无需外部 crate。它应该从 BufRead 中读取一系列以空格分隔的标记。 (标准输入或文件)。标记可能是整数、浮点数或 ASCII 字,由空格和换行符分隔,所以看来我应该支持 FromStr类型一般。一小部分问题是交互式的,这意味着最初并非所有输入都可用,但它总是以完整的方式出现。

有关上下文,这里是 the discussion that led me to post here .有人写了非常快的自定义代码来直接从 &[u8] 解析整数BufRead::fill_buf() 的输出,但它在 FromStr 中不是通用的.

这是我的 best solution so far (强调 Scanner 结构):

use std::io::{self, prelude::*};

fn solve<B: BufRead, W: Write>(mut scan: Scanner<B>, mut w: W) {
let n = scan.token();
let mut a = Vec::with_capacity(n);
let mut b = Vec::with_capacity(n);
for _ in 0..n {
a.push(scan.token::<i64>());
b.push(scan.token::<i64>());
}
let mut order: Vec<_> = (0..n).collect();
order.sort_by_key(|&i| b[i] - a[i]);
let ans: i64 = order
.into_iter()
.enumerate()
.map(|(i, x)| a[x] * i as i64 + b[x] * (n - 1 - i) as i64)
.sum();
writeln!(w, "{}", ans);
}

fn main() {
let stdin = io::stdin();
let stdout = io::stdout();
let reader = Scanner::new(stdin.lock());
let writer = io::BufWriter::new(stdout.lock());
solve(reader, writer);
}

pub struct Scanner<B> {
reader: B,
buf_str: String,
buf_iter: std::str::SplitWhitespace<'static>,
}
impl<B: BufRead> Scanner<B> {
pub fn new(reader: B) -> Self {
Self {
reader,
buf_str: String::new(),
buf_iter: "".split_whitespace(),
}
}
pub fn token<T: std::str::FromStr>(&mut self) -> T {
loop {
if let Some(token) = self.buf_iter.next() {
return token.parse().ok().expect("Failed parse");
}
self.buf_str.clear();
self.reader
.read_line(&mut self.buf_str)
.expect("Failed read");
self.buf_iter = unsafe { std::mem::transmute(self.buf_str.split_whitespace()) };
}
}
}

通过避免不必要的分配,这 Scanner相当快。如果我们不关心不安全,它可以通过而不是做 read_line() 来做得更快。成 String , 做 read_until(b'\n')Vec<u8> ,其次是 str::from_utf8_unchecked() .

不过,我也想知道最快的是什么 保险箱 解决方案。有没有一种聪明的方式告诉 Rust 我的 Scanner实现确实是安全的,消除了 mem::transmute ?直觉上,我们似乎应该想到 SplitWhitespace对象为 拥有缓冲区直到它返回后被有效删除 None .

在其他条件相同的情况下,我想要一个“不错”的惯用标准库解决方案,因为我正试图向其他参加编程比赛的人展示 Rust。

最佳答案

我很高兴你问这个问题,因为我在我的 LibCodeJam rust 实现中解决了这个确切的问题。具体来说,从 BufRead 读取原始 token 由 TokensReader type 处理以及一些相关的小 helper 。

这是相关的摘录。这里的基本思想是扫描 BufRead::fill_buf空白的缓冲区,并将非空白字符复制到本地缓冲区中,该缓冲区在 token 调用之间重复使用。一旦找到空白字符或流结束,本地缓冲区将被解释为 UTF-8 并作为 &str 返回。 .

#[derive(Debug)]
pub enum LoadError {
Io(io::Error),
Utf8Error(Utf8Error),
OutOfTokens,
}

/// TokenBuffer is a resuable buffer into which tokens are
/// read into, one-by-one. It is cleared but not deallocated
/// between each token.
#[derive(Debug)]
struct TokenBuffer(Vec<u8>);

impl TokenBuffer {
/// Clear the buffer and start reading a new token
fn lock(&mut self) -> TokenBufferLock {
self.0.clear();
TokenBufferLock(&mut self.0)
}
}

/// TokenBufferLock is a helper type that helps manage the lifecycle
/// of reading a new token, then interpreting it as UTF-8.
#[derive(Debug, Default)]
struct TokenBufferLock<'a>(&'a mut Vec<u8>);

impl<'a> TokenBufferLock<'a> {
/// Add some bytes to a token
fn extend(&mut self, chunk: &[u8]) {
self.0.extend(chunk)
}

/// Complete the token and attempt to interpret it as UTF-8
fn complete(self) -> Result<&'a str, LoadError> {
from_utf8(self.0).map_err(LoadError::Utf8Error)
}
}

pub struct TokensReader<R: io::BufRead> {
reader: R,
token: TokenBuffer,
}

impl<R: io::BufRead> Tokens for TokensReader<R> {
fn next_raw(&mut self) -> Result<&str, LoadError> {
use std::io::ErrorKind::Interrupted;

// Clear leading whitespace
loop {
match self.reader.fill_buf() {
Err(ref err) if err.kind() == Interrupted => continue,
Err(err) => return Err(LoadError::Io(err)),
Ok([]) => return Err(LoadError::OutOfTokens),
// Got some content; scan for the next non-whitespace character
Ok(buf) => match buf.iter().position(|byte| !byte.is_ascii_whitespace()) {
Some(i) => {
self.reader.consume(i);
break;
}
None => self.reader.consume(buf.len()),
},
};
}

// If we reach this point, there is definitely a non-empty token ready to be read.
let mut token_buf = self.token.lock();

loop {
match self.reader.fill_buf() {
Err(ref err) if err.kind() == Interrupted => continue,
Err(err) => return Err(LoadError::Io(err)),
Ok([]) => return token_buf.complete(),
// Got some content; scan for the next whitespace character
Ok(buf) => match buf.iter().position(u8::is_ascii_whitespace) {
Some(i) => {
token_buf.extend(&buf[..i]);
self.reader.consume(i + 1);
return token_buf.complete();
}
None => {
token_buf.extend(buf);
self.reader.consume(buf.len());
}
},
}
}
}
}

此实现不处理将字符串解析为 FromStr类型——这是单独处理的——但它确实处理了正确的累积字节,将它们分成以空格分隔的标记,并将这些标记解释为 UTF-8。它确实假设只有 ASCII 空格将用于分隔 token 。

值得注意的是 FromStr不能直接在 fill_buf上使用缓冲区,因为不能保证 token 不会跨越两个 fill_buf 之间的边界调用,并且无法强制执行 BufRead读取更多字节,直到完全消耗现有缓冲区。我假设很明显,一旦您拥有 Ok(&str) ,您可以执行 FromStr在你的闲暇时间。

此实现不是 0 复制,而是(摊销)0 分配,它最大限度地减少了不必要的复制或缓冲。它使用单个持久缓冲区,如果它对于单个 token 太小,则仅调整大小,并在 token 之间重用此缓冲区。字节直接从输入 BufRead 复制到此缓冲区中缓冲区,无需额外的中间复制。

关于string - Rust 编程竞赛中最快的惯用 I/O 例程?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56449027/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com