gpt4 book ai didi

xml - bsdtar文件分隔符字节?

转载 作者:行者123 更新时间:2023-12-03 11:36:35 25 4
gpt4 key购买 nike

我正在使用bsdtar将包含许多(百万)个xml文件的.tar.gz文件的内容通过管道传输到stdout。

目前,我正在使用的命令是:

$ bsdtar -x -f <file.tar.gz> -O | ...

在下游程序(上述命令中的省略号)中,我需要将输出流分块到每个文件中。我已经阅读了bsdtar的手册页,但是仍然看不到指定文件分隔符字节。
目前,我正在使用此rust代码。之所以只能使用,是因为每个文件都具有相同的XML声明行(我舍弃了该行)。
struct FileIter<'a> {
buf_reader: StdinLock<'a>
}

impl FileIter<'_> {
fn next_file<'a>(&mut self, buf: &'a mut Vec<u8>) -> Option<&'a [u8]> {
buf.clear();
loop {
match self.buf_reader.read_until(b'?', buf) {
// This is the file deliminator
// <?xml version="1.0" encoding="UTF-8"?>\n
Ok(0) => { break None; }
Ok(_) => {
let buf_len = buf.len();
if buf_len >= 37 {
if &buf[buf_len - 37..buf_len] ==
b"<?xml version=\"1.0\" encoding=\"UTF-8\"?" {
buf.truncate(buf_len - 37);
if buf.len() > 2 {
break Some(&buf[2..]);
}
}
}
}
Err(err) => {
println!("{:?}", err);
break None;
}
}
}
}
}
bsdtar中是否有一个选项可以指定文件分隔符字节?还是在Rust中有一种更通用的方法可以对所有文件起作用?

最佳答案

使用Lambda Fairy的注释,我几乎可以使用tar条板箱文档中的确切示例:
Cargo.toml

...

[dependencies]
tar = "0.4.30"
flate2 = "1.0.19"
main.rs
extern crate tar;

use std::fs::File;
use std::io::prelude::*;

use tar::Archive;
use flate2::read::GzDecoder;

fn main() {
let path = "file.tar.gz";
let tar_gz = File::open(path).unwrap();
let tar = GzDecoder::new(tar_gz);
let mut a = Archive::new(tar);

for file in a.entries().unwrap() {
// Make sure there wasn't an I/O error
let mut file = file.unwrap();

// Inspect metadata about the file
println!("{:?}", file.header().path().unwrap());
println!("{}", file.header().size().unwrap());

// files implement the Read trait
let mut s = String::new();
file.read_to_string(&mut s).unwrap();
println!("{}", s);
}
}

关于xml - bsdtar文件分隔符字节?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65283638/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com