gpt4 book ai didi

rust - Rust帮助提取ZIP内容

转载 作者:行者123 更新时间:2023-12-03 11:47:22 27 4
gpt4 key购买 nike

我有一个复杂的文件读取问题。...我需要读取带有嵌入式文件系统的DOCX文件,提取ZIP文件,并仔细阅读ZIP文件的内部目录以提取我需要的实际文件。我已经用Java成功编写了此代码,因此我知道它可以实现。但是,我想在Rust中做到这一点。
当前,我可以读取DOCX文件,遍历OLE10对象以找到所需的文件。 OLE10文件(实际上是ZIP)具有一个256字节的奇怪的提取命令 header ,我已经过去了。如果我阅读了文件流的其余部分并将其写入文件系统,它将以ZIP格式写出。我可以使用7-zip打开文件并查看所有内容。
问题是,无论我使用哪种Rust ZIP crate (zip,zip_extract,zip_extensions,rc-zip),我都无法提取ZIP内容。我不断遇到“找不到中央目录结尾”的问题。我已经遍历了该文件,并且实际上存在EOCD标记“50 4B 05 06”。如果我在EOCD处结束流,则出现“文件退出提前结束”错误。该文件> 9M,我想知道这是否是问题所在。
任何人都有如何使用Rust提取ZIP目录并将其附加到缓冲区或文件系统的想法吗?
这是不会提取的代码:

let docx_path = Path::new(docx_filename);

// Capture the files from the embedded CFB filesystem
let mut comp_file = cfb::open(docx_path).unwrap();
let objpool_entries_vec: Vec<_> = comp_file // Collect the entries of /ObjectPool
.read_storage(Path::new("/ObjectPool"))
.unwrap()
.map(|subdir| comp_file.read_storage(subdir.path().to_owned())
.unwrap()
.filter(|path| path.name().contains("Ole10Native"))
.next()
)
.filter(|entry| entry.is_some()) // Filter entries with data
.map(|entry| entry.unwrap()) // Unwrap those entries with data
.collect();

let mut ole10_stream = comp_file.open_stream(objpool_entries_vec[5].path()) // Create stream of the OLE10 file
.unwrap();
ole10_stream.seek(std::io::SeekFrom::Start(256)); // skip the 256 byte header

let mut ole_buffer = Vec::new();
ole10_stream.read_to_end(&mut ole_buffer);

let zip_cursor = Cursor::new(ole_buffer);

zip_extract::extract(
zip_cursor,
&PathBuf::from("C:\\Users\\ra069466\\Documents\\Software_Projects\\Rust_projects\\ha420_maint_app\\test_files\\"),
false)
.unwrap();
当我运行以下命令时,它将ZIP写入目录,然后可以使用7zip解压缩。但是,当尝试提取到文件系统时,它仍然会感到 panic 。
let docx_path = Path::new(docx_filename);

// Capture the files from the embedded CFB filesystem
let mut comp_file = cfb::open(docx_path).unwrap();
let objpool_entries_vec: Vec<_> = comp_file // Collect the entries of /ObjectPool
.read_storage(Path::new("/ObjectPool"))
.unwrap()
.map(|subdir| comp_file.read_storage(subdir.path().to_owned())
.unwrap()
.filter(|path| path.name().contains("Ole10Native"))
.next()
)
.filter(|entry| entry.is_some()) // Filter entries with data
.map(|entry| entry.unwrap()) // Unwrap those entries with data
.collect();

let mut ole10_stream = comp_file.open_stream(objpool_entries_vec[5].path()) // Create stream of the OLE10 file
.unwrap();
ole10_stream.seek(std::io::SeekFrom::Start(256)); // skip the 256 byte header

let mut ole_buffer = Vec::new();
ole10_stream.read_to_end(&mut ole_buffer);

let zip_cursor = Cursor::new(ole_buffer);

let mut zip_file = OpenOptions::new()
.write(true)
.create(true)
.open("C:\\Users\\ra069466\\Documents\\Software_Projects\\Rust_projects\\ha420_maint_app\\test_files\\test.zip")?;
zip_file.write_all(&mut zip_cursor.get_ref())?;
zip_file.flush();

let mut zip_file = File::open("C:\\Users\\ra069466\\Documents\\Software_Projects\\Rust_projects\\ha420_maint_app\\test_files\\test.zip")?;

let zip_archive = zip::ZipArchive::new(&zip_file)?;

zip_extract::extract(
zip_file,
&PathBuf::from("C:\\Users\\ra069466\\Documents\\Software_Projects\\Rust_projects\\ha420_maint_app\\test_files\\"),
false)
.unwrap();

最佳答案

我不能说其他的 crate ,但是zip会自动寻找您提供的io::Read的结尾(然后向后搜索)。在没有看到您的代码的情况下,我猜测您正在传递的阅读器超出了ZIP文件内容的末尾,因此zip无法识别该内容。
如果您需要特定功能,请随时在our issue tracker上提出问题。如果需要,我很高兴扩展 crate 的API

Edit: I looked into the other crates you've used and they'd share this issue. rc-zip (The only one that doesn't use zip under the hood) has a ReadZip trait that starts searching at the end of whatever buffer you give it. You'd need to call ArchiveReader::new with the size you expect the internal zip file to be

关于rust - Rust帮助提取ZIP内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64928982/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com