gpt4 book ai didi

c# - 如何完成对 UTF8 文件的随机读取

转载 作者:太空狗 更新时间:2023-10-29 22:24:26 25 4
gpt4 key购买 nike

我的理解是,读取 UTF8 或 UTF16 编码的文件不一定是随机的,因为偶尔会有代理字节(例如在东方语言中使用)。

如何使用 .NET 跳到文件中的大概位置,并从半随机位置读取 unicode 文本?

我是否丢弃替代字节并等待断字以继续阅读?如果是这样,valid word breaks 是什么?我应该等到我开始解码?

最佳答案

很简单,UTF-8 是自同步的。
只需跳转到文件中的随机字节并跳过读取所有具有前导位10(连续字节)的字节。没有前导 10 的第一个字节是正确 UFT-8 字符的起始字节,您可以使用常规 UTF-8 编码读取以下字节。

关于c# - 如何完成对 UTF8 文件的随机读取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4935034/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com