gpt4 book ai didi

utf-8 - 一次一个字节地解析 Common Lisp 中已知长度的 UTF-8 字符串

转载 作者:太空宇宙 更新时间:2023-11-03 18:36:43 26 4
gpt4 key购买 nike

我正在用 Common Lisp 编写一个程序来编辑生成的二进制文件由使用 NBT 格式的 Minecraft 开发,在此处记录: http://minecraft.gamepedia.com/NBT_format?cookieSetup=true(我知道存在这样的工具,例如 NBTEditor 和 MCEdit,但它们都不是用 Common Lisp 编写的,我认为这个项目将成为一个很好的学习练习)。

到目前为止,我还没有设法自己实现的唯一事情之一是一个函数,用于读取已知长度的 UTF-8 字符串,该字符串包含使用多个八位字节(即非 ASCII 字符)表示的字符。在 NBT 格式中,每个字符串都是 UTF-8 编码的,并且前面有一个短整数(两个八位字节)n 表示字符串的长度。因此,假设字符串中只存在 ASCII 字符,我可以简单地从流中读取一个 n 八位字节序列,然后使用如下方法将其转换为字符串:

(defun read-utf-8-string (string-length byte-stream)
(let ((seq (make-array string-length :element-type '(unsigned-byte 8)
:fill-pointer t)))
(setf (fill-pointer seq) (read-sequence seq byte-stream))
(flexi-streams:octets-to-string seq :external-format :utf-8)))

但是如果一个或多个字符的字符代码大于255,它被编码为两个或更多字节,如本例所示:

(flexi-streams:string-to-octets "wife" :external-format :utf-8)
==> #(119 105 102 101)

(flexi-streams:string-to-octets "жена" :external-format :utf-8)
==> #(208 182 208 181 208 189 208 176)

两个字符串的长度相同,但是俄语单词的每个字符被编码成八位字节数的两倍,所以总的大小字符串是英文字符串的两倍。因此,如果使用读取序列,知道字符串长度无济于事。即使尺寸字符串(即编码它所需的八位字节数)是已知的,仍然无法知道哪些八位字节要单独转换为字符形式,哪些要组合在一起进行转换。因此,我没有滚动自己的函数,而是试图找到一种方法来让实现 (Clozure CL) 或外部库为我完成工作。不幸的是,这也有问题,因为我的解析器依赖于对所有读取函数使用相同的文件流,如下所示:

(with-open-file (stream "test.dat" :direction :input
:element-type '(unsigned-byte 8))
;;Read entire contents of NBT file from stream here)

这将我限制为 :element-type '(unsigned-byte 8),因此禁止我指定字符编码并使用 read-char(或等效的),如下所示:

(with-open-file (stream "test.dat" :external-format :utf-8)
...)

:element-type 必须是 '(unsigned-byte 8) 以便我可以读写各种大小的整数和 float 。为了避免必须手动将八位字节序列转换为字符串,我首先想知道是否有一种方法可以在文件打开时将元素类型更改为字符类型,这让我在这里进行了讨论: https://groups.google.com/forum/#!searchin/comp.lang.lisp/binary $20write$20read/comp.lang.lisp/N0IESNPSPCU/Qmcvtk0HkC0J显然,某些 CL 实现(例如 SBCL)默认使用二价流,因此可以在同一流上同时使用 read-byte 和 read-char;如果我要采用这种方法,我仍然需要能够为流指定一个 :external-format (:utf-8),尽管这种格式应该只适用于读取字符,而不适用于读取原始字节。

为了简洁起见,我在上面的例子中使用了几个来自 flexi-streams 的函数,但到目前为止我的代码只使用了内置的流类型,我还没有使用 flexi-streams 本身。 这个问题适合 flexi-streams 吗?拥有一个额外的抽象层,使我能够从同一流中互换地读取原始字节和 UTF-8 字符,这将是理想的选择。

非常感谢熟悉 flexi-streams(或其他相关方法)的人提供的任何建议。

谢谢。

最佳答案

这是我写的:

首先,我们想知道给定第一个字节后,某个字符的实际编码长度。

(defun utf-8-number-of-bytes (first-byte)
"returns the length of the utf-8 code in number of bytes, based on the first byte.
The length can be a number between 1 and 4."
(declare (fixnum first-byte))
(cond ((= 0 (ldb (byte 1 7) first-byte)) 1)
((= #b110 (ldb (byte 3 5) first-byte)) 2)
((= #b1110 (ldb (byte 4 4) first-byte)) 3)
((= #b11110 (ldb (byte 5 3) first-byte)) 4)
(t (error "unknown number of utf-8 bytes for ~a" first-byte))))

然后我们解码:

(defun utf-8-decode-unicode-character-code-from-stream (stream)
"Decodes byte values, from a binary byte stream, which describe a character
encoded using UTF-8.
Returns the character code and the number of bytes read."
(let* ((first-byte (read-byte stream))
(number-of-bytes (utf-8-number-of-bytes first-byte)))
(declare (fixnum first-byte number-of-bytes))
(ecase number-of-bytes
(1 (values (ldb (byte 7 0) first-byte)
1))
(2 (values (logior (ash (ldb (byte 5 0) first-byte) 6)
(ldb (byte 6 0) (read-byte stream)))
2))
(3 (values (logior (ash (ldb (byte 5 0) first-byte) 12)
(ash (ldb (byte 6 0) (read-byte stream)) 6)
(ldb (byte 6 0) (read-byte stream)))
3))
(4 (values (logior (ash (ldb (byte 3 0) first-byte) 18)
(ash (ldb (byte 6 0) (read-byte stream)) 12)
(ash (ldb (byte 6 0) (read-byte stream)) 6)
(ldb (byte 6 0) (read-byte stream)))
4))
(t (error "wrong UTF-8 encoding for file position ~a of stream ~s"
(file-position stream)
stream)))))

你知道有多少个字符。 N 个字符。您可以为 N 个字符分配支持 unicode 的字符串。所以你调用函数 N 次。然后,对于每个结果,将结果转换为字符并将其放入字符串中。

关于utf-8 - 一次一个字节地解析 Common Lisp 中已知长度的 UTF-8 字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31897544/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com