gpt4 book ai didi

java - 部分加载具有不同编码的大文本文件

转载 作者:行者123 更新时间:2023-12-02 08:37:51 25 4
gpt4 key购买 nike

我正在编写一个 Java 文本组件,并尝试在中间部分加载一些大文本文件(出于速度原因)。

我的问题是文本是否采用某种多字节编码格式,例如 UTF8、Big5、GBK 等。如何对齐字节以便正确解码文本?

最佳答案

我不能谈论其他格式,但 utf8 应该不会太难。

只需查看您抓取的 block 的第一个字节并从那里找出:

摘自维基百科:

00000000-01111111   00-7F   0-127   US-ASCII (single byte)
10000000-10111111 80-BF 128-191 2'nd, 3rd, or 4'th byte of a multi-byte sequence
11000000-11000001 C0-C1 192-193 start of a 2-byte sequence, but code point <= 127
11000010-11011111 C2-DF 194-223 Start of 2-byte sequence
11100000-11101111 E0-EF 224-239 Start of 3-byte sequence
11110000-11110100 F0-F4 240-244 Start of 4-byte sequence

如果该字节位于第二组或第三组中,那么您就知道错过了字符的一部分。如果它位于第 1、4、5、6 组中,那么您就知道您正处于角色的开头。从那里继续进行相应的操作。

关于java - 部分加载具有不同编码的大文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/984766/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com