- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试实现文件中的 UTF-8 字符流。这就是我到目前为止所得到的,请暂时原谅丑陋的代码。
use std::fs::File;
use std::io;
use std::io::BufRead;
use std::str;
fn main() -> io::Result<()> {
let mut reader = io::BufReader::with_capacity(100, File::open("utf8test.txt")?);
loop {
let mut consumed = 0;
{
let buf = reader.fill_buf()?;
println!("buf len: {}", buf.len());
match str::from_utf8(&buf) {
Ok(s) => {
println!("====\n{}", s);
consumed = s.len();
}
Err(err) => {
if err.valid_up_to() == 0 {
println!("1. utf8 decoding failed!");
} else {
match str::from_utf8(&buf[..err.valid_up_to()]) {
Ok(s) => {
println!("====\n{}", s);
consumed = s.len();
}
_ => println!("2. utf8 decoding failed!"),
}
}
}
}
}
if consumed == 0 {
break;
}
reader.consume(consumed);
println!("consumed {} bytes", consumed);
}
Ok(())
}
我有一个在偏移量 98 处有一个多字节字符的测试文件,它无法解码,因为它不完全适合我的(任意大小的)100 字节缓冲区。没关系,我只是忽略它并解码直到该字符开头的有效内容。
问题是在 BufReader
上调用 consume(98)
之后,下一次调用 fill_buf()
只返回 2 个字节。 .. 它似乎没有费心将更多字节读入缓冲区。我不明白为什么。也许我误解了文档。
这是示例输出:
buf len: 100
====
UTF-8 encoded sample plain-text file
‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾
consumed 98 bytes
buf len: 2
1. utf8 decoding failed!
如果 from_utf8()
返回部分解码的字符串和解码错误的位置就好了,这样我就不必在发生这种情况时调用它两次,但是没有标准库中似乎有这样一个函数(据我所知)。
最佳答案
我鼓励您学习如何制作 Minimal, Complete, and Verifiable example .这是专业程序员用来更好地理解问题并将注意力集中在问题的重要方面的宝贵技能。例如,您没有提供实际的输入文件,因此任何人都很难使用您提供的代码重现您的行为。
经过反复试验,我能够将您的问题简化为以下代码:
use std::io::{self, BufRead};
fn main() -> io::Result<()> {
let mut reader = io::BufReader::with_capacity(100, io::repeat(b'a'));
let a = reader.fill_buf()?.len();
reader.consume(98);
let b = reader.fill_buf()?.len();
println!("{}, {}", a, b); // 100, 2
Ok(())
}
不幸的是,对于您的情况,BufRead
的契约(Contract)允许这种行为事实上几乎是必需的。缓冲读取器的要点是尽可能避免调用底层读取器。 trait 不知道你需要读取多少字节,也不知道 2 个字节不够,它应该执行另一个调用。反过来,假设您只消耗了 100 个字节中的 1 个字节——您是否希望将所有剩余的 99 个字节复制到内存中,然后执行另一次底层读取?这比一开始不使用 BufRead
要慢!
trait 也没有任何规定将缓冲区中的剩余字节移动到开头,然后再次填充缓冲区。这似乎可以添加到具体的 BufReader
中。 ,因此您可能希望提供拉取请求以添加它。
现在,我建议使用 Read::read_exact
在缓冲区的末尾:
use std::io::{self, BufRead, Read};
fn main() -> io::Result<()> {
let mut reader = io::BufReader::with_capacity(100, io::repeat(b'a'));
let a = reader.fill_buf()?.len();
reader.consume(98);
let mut leftover = [0u8; 4]; // a single UTF-8 character is at most 4 bytes
// Assume we know we need 3 bytes based on domain knowledge
reader.read_exact(&mut leftover[..3])?;
let b = reader.fill_buf()?.len();
println!("{}, {}", a, b); // 100, 99
Ok(())
}
另见:
关于rust - 为什么在调用 consume 后调用 BufReader::fill_buf 返回的字节数比我预期的要少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52650080/
我对java有点陌生,所以如果我犯了一个简单的错误,请原谅我,但我不确定我哪里出错了,我收到的错误是“预期的.class,预期的标识符,而不是声明, ';'预期的。”我尝试了不同的方法,并从这些方法中
This question already has answers here: chai test array equality doesn't work as expected (3个答案) 3年前
我正在学习 Java(对不起,我的英语很差,这不是我的母语),当我在 Eclipse (JavaSE-1.7) 中在我输入的每个“try”中执行“try-finally” block 时,会出现以下消
我收到两个错误,指出 token 上的语法错误,ConstructorHeaderName expected instead & token “(”上的语法错误,< expected 在线: mTM.
我找不到错误。 Eclipse 给我这个错误。每个 { } 都是匹配的。请帮忙。 Multiple markers at this line - Syntax error on token “)”,
代码: import java.awt.*; import javax.swing.*; import java.awt.event.*; public class DoubleIt extends
我正在用 python(Vs 代码)编写代码,但出现此错误: Expected ")" Pylance 错误发生在:def main() 我试着运行我的 main 并将它打印到我的屏幕上。我用谷歌搜
我正在尝试按照 documentation 中的建议使用异步函数。但我收到此错误 意外的 token ,预期 ( async function getMoviesFromApi() { try
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。 想改善这个问题吗?更新问题,以便将其作为on-topic
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。 想改善这个问题吗?更新问题,以便将其作为on-topic
第一行包含一个表示数组长度的整数p。第二行包含用空格分隔的整数,这些整数描述数组中的每个元素。第三行打印一个整数,指示负数组的数量。 package asgn3; import java.util.*
好的,我是初学者,我必须修复此 java 表达式语言代码才能在我的系统 (Windchill) 中工作,但看起来我在语法中遗漏了一些内容: LWCNormalizedObject lwc =
我无法编译我的程序! 我想我缺少一个花括号,但我怎么也看不出在哪里! import javax.swing.*; import java.awt.*;
我的 jQuery 代码有问题,我的 Firebug 向我发出警告:需要选择器。 这是代码: $("img[id$='_tick']").each(function() { $(this).c
我的新类(class) Fountainofyouth 遇到了问题。尝试构建整个项目后,调试器显示 warning: extended initializer lists only available
我已经从 Java 转向 CPP,并且正在努力围绕构造构造函数链进行思考,我认为这是我的问题的根源。 我的头文件如下: public: GuidedTour(); GuidedTour(string
鉴于以下 for(var i=0; i< data.cats.length; i++) list += buildCategories(data.cats[i]); jsLint 告诉我 Expect
我有这个 json,但 Visual Studio Code 在标题中给了我警告。 [ { "title": "Book A", "imageUrl": "https:
我正在尝试编写一个有条件地禁用四个特殊成员函数(复制构造、移动构造、复制赋值和移动赋值)的包装类,下面是我用于测试目的的快速草稿: enum class special_member : uint8_
所以我用 F# 编写了一个非常简单的程序,它应该对 1000 以下的所有 3 和 5 的倍数求和: [1..999] |> List.filter (fun x -> x % 3 = 0 || x %
我是一名优秀的程序员,十分优秀!