utf-8 - 一次一个字节地解析 Common Lisp 中已知长度的 UTF-8 字符串-6ren

utf-8 - 一次一个字节地解析 Common Lisp 中已知长度的 UTF-8 字符串

转载作者：太空宇宙更新时间：2023-11-03 18:36:43

26

4

我正在用 Common Lisp 编写一个程序来编辑生成的二进制文件由使用 NBT 格式的 Minecraft 开发，在此处记录: http://minecraft.gamepedia.com/NBT_format?cookieSetup=true(我知道存在这样的工具，例如 NBTEditor 和 MCEdit，但它们都不是用 Common Lisp 编写的，我认为这个项目将成为一个很好的学习练习)。

到目前为止，我还没有设法自己实现的唯一事情之一是一个函数，用于读取已知长度的 UTF-8 字符串，该字符串包含使用多个八位字节(即非 ASCII 字符)表示的字符。在 NBT 格式中，每个字符串都是 UTF-8 编码的，并且前面有一个短整数(两个八位字节)n 表示字符串的长度。因此，假设字符串中只存在 ASCII 字符，我可以简单地从流中读取一个 n 八位字节序列，然后使用如下方法将其转换为字符串:

(defun read-utf-8-string (string-length byte-stream)
  (let ((seq (make-array string-length :element-type '(unsigned-byte 8)
                                       :fill-pointer t)))
    (setf (fill-pointer seq) (read-sequence seq byte-stream))
    (flexi-streams:octets-to-string seq :external-format :utf-8)))

但是如果一个或多个字符的字符代码大于255，它被编码为两个或更多字节，如本例所示:

(flexi-streams:string-to-octets "wife" :external-format :utf-8)
==> #(119 105 102 101)

(flexi-streams:string-to-octets "жена" :external-format :utf-8)
==> #(208 182 208 181 208 189 208 176)

两个字符串的长度相同，但是俄语单词的每个字符被编码成八位字节数的两倍，所以总的大小字符串是英文字符串的两倍。因此，如果使用读取序列，知道字符串长度无济于事。即使尺寸字符串(即编码它所需的八位字节数)是已知的，仍然无法知道哪些八位字节要单独转换为字符形式，哪些要组合在一起进行转换。因此，我没有滚动自己的函数，而是试图找到一种方法来让实现 (Clozure CL) 或外部库为我完成工作。不幸的是，这也有问题，因为我的解析器依赖于对所有读取函数使用相同的文件流，如下所示:

(with-open-file (stream "test.dat" :direction :input
                                   :element-type '(unsigned-byte 8))
  ;;Read entire contents of NBT file from stream here)

这将我限制为 :element-type '(unsigned-byte 8)，因此禁止我指定字符编码并使用 read-char(或等效的)，如下所示:

(with-open-file (stream "test.dat" :external-format :utf-8)
  ...)

:element-type 必须是 '(unsigned-byte 8) 以便我可以读写各种大小的整数和 float 。为了避免必须手动将八位字节序列转换为字符串，我首先想知道是否有一种方法可以在文件打开时将元素类型更改为字符类型，这让我在这里进行了讨论: https://groups.google.com/forum/#!searchin/comp.lang.lisp/binary $20write$20read/comp.lang.lisp/N0IESNPSPCU/Qmcvtk0HkC0J显然，某些 CL 实现(例如 SBCL)默认使用二价流，因此可以在同一流上同时使用 read-byte 和 read-char；如果我要采用这种方法，我仍然需要能够为流指定一个 :external-format (:utf-8)，尽管这种格式应该只适用于读取字符，而不适用于读取原始字节。

为了简洁起见，我在上面的例子中使用了几个来自 flexi-streams 的函数，但到目前为止我的代码只使用了内置的流类型，我还没有使用 flexi-streams 本身。 这个问题适合 flexi-streams 吗？拥有一个额外的抽象层，使我能够从同一流中互换地读取原始字节和 UTF-8 字符，这将是理想的选择。

非常感谢熟悉 flexi-streams(或其他相关方法)的人提供的任何建议。

谢谢。

最佳答案

这是我写的:

首先，我们想知道给定第一个字节后，某个字符的实际编码长度。

(defun utf-8-number-of-bytes (first-byte)
  "returns the length of the utf-8 code in number of bytes, based on the first byte.
The length can be a number between 1 and 4."
  (declare (fixnum first-byte))
  (cond ((=       0 (ldb (byte 1 7) first-byte)) 1)
        ((=   #b110 (ldb (byte 3 5) first-byte)) 2)
        ((=  #b1110 (ldb (byte 4 4) first-byte)) 3)
        ((= #b11110 (ldb (byte 5 3) first-byte)) 4)
        (t (error "unknown number of utf-8 bytes for ~a" first-byte))))

然后我们解码:

(defun utf-8-decode-unicode-character-code-from-stream (stream)
  "Decodes byte values, from a binary byte stream, which describe a character
encoded using UTF-8.
Returns the character code and the number of bytes read."
  (let* ((first-byte (read-byte stream))
         (number-of-bytes (utf-8-number-of-bytes first-byte)))
    (declare (fixnum first-byte number-of-bytes))
    (ecase number-of-bytes
      (1 (values (ldb (byte 7 0) first-byte)
                 1))
      (2 (values (logior (ash (ldb (byte 5 0) first-byte) 6)
                         (ldb (byte 6 0) (read-byte stream)))
                 2))
      (3 (values (logior (ash (ldb (byte 5 0) first-byte) 12)
                         (ash (ldb (byte 6 0) (read-byte stream)) 6)
                         (ldb (byte 6 0) (read-byte stream)))
                 3))
      (4 (values (logior (ash (ldb (byte 3 0) first-byte) 18)
                         (ash (ldb (byte 6 0) (read-byte stream)) 12)
                         (ash (ldb (byte 6 0) (read-byte stream)) 6)
                         (ldb (byte 6 0) (read-byte stream)))
                 4))
      (t (error "wrong UTF-8 encoding for file position ~a of stream ~s"
                (file-position stream)
                stream)))))

你知道有多少个字符。 N 个字符。您可以为 N 个字符分配支持 unicode 的字符串。所以你调用函数 N 次。然后，对于每个结果，将结果转换为字符并将其放入字符串中。

关于utf-8 - 一次一个字节地解析 Common Lisp 中已知长度的 UTF-8 字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31897544/

26

4

0

文章推荐： dependencies - 如何管理常见的 lisp 依赖项？

文章推荐： python - 嵌套循环中结果的唯一变量名称

文章推荐： html - 自定义单选按钮图像选择

python - 将键-长度-值 (KLV) 字符串拆分为键、长度、值的小列表
将 KLV 字符串拆分为键、长度、值作为元素的列表/元组的更有效方法是什么？为了添加一点背景，前 3 位数字作为键，接下来的 2 位表示值的长度。我已经能够使用以下代码解决该问题。但我不认为我的代
javascript - 上传前如何获取视频的元数据(长度)？
首先，我试图从文件中提取视频持续时间，然后在无需实际上传文件的情况下显示它。当用户选择视频时 - 信息将显示在其下方，包括文件名、文件大小、文件类型。不管我的技能多么糟糕 - 我无法显示持续时间。我
scala - 获取数组列的大小/长度
我是 Scala 编程新手，这是我的问题:如何计算每行的字符串数量？我的数据框由一列 Array[String] 类型组成。 friendsDF: org.apache.spark.sql.DataF
javascript - 查找上传到React应用程序的音频文件的持续时间/长度
我有一个React Web应用程序(create-react-app)，该应用程序使用react-hook-forms上传歌曲并使用axios将其发送到我的Node / express服务器。我想确
Java - 如何将网络掩码转换为位/长度
如果给你一个网络掩码(例如 255.255.255.0)，你如何在 Java 中获得它的长度/位(例如 8)？最佳答案如果您想找出整数低端有多少个零位，请尝试 Integer.numberOfTr
追加和删除点击时的 Jquery 长度
我需要使用 jQuery 获取 div 数量的长度。我可以得到它，但在两个单击事件中声明变量，但这似乎是错误的，然后我还需要使用它来根据数字显示隐藏按钮。我觉得我不必将代码加倍。在这里摆弄 htt
python散点图面积大小比例 Axis 长度
我对此感到非常绝望，到目前为止我在 www 上找不到任何东西。情况如下: 我正在使用 Python。我有 3 个数组:x 坐标、y 坐标和半径。我想使用给定的 x 和 y 坐标创建散点图。到目
jQuery:动态加载元素的大小/长度
我有一个表单，我通过 jQuery 的加载函数动态添加新的输入和选择元素。有时加载的元素故意为空，在这种情况下我想隐藏容器 div，这样它就不会破坏样式。问题是，我似乎无法计算加载的元素，因此不知道
jQuery 长度 > 0
我决定通过替换来使我的代码更清晰 if (wrappedSet.length > 0) 类似 if (wrappedSet.exists()) 是否有任何 native jq 函数可以实现此目的？或者
MySQL更改 key 长度
简单的问题。如果我有一个如下表: CREATE TABLE `exampletable` ( `id` int(11) NOT NULL AUTO_INCREMENT, `textfield`
mysql - 参数化查询中的数据类型/长度
我正在使用经典 ASP/MySQL 将长用户输入插入到我的数据库中，该输入是从富文本编辑器生成的。该列设置为 LONG-TEXT。作为参数化查询(准备语句)的新手，我不确定用于此特定查询的数据长度。
javascript - 如何在文本输入字段上设置自动宽度/长度？
我正在获取 Stripe 交易费用的值(value)并通过禁用的文本字段显示它。由于输入文本域，句子出现较大空隙 This is the amount $3.50____________that n
css - 背景大小包含 AND 长度
我有一个 div，其背景图像的大小设置为包含。但是，图像是视网膜计算机(Macbook Pro 等)的双分辨率图像，所以我希望能够以某种方式让页面知道即使我说的是背景大小:包含 200x200 图像，
javascript - 从dom中删除元素时如何更改计数器/长度
我正在开发一个具有“已保存”和“已完成”模块的小部件。当我删除元素时，它会从 dom 中删除/淡化它，但是当我将其标记为完成时，它会将其克隆到已完成的选项卡。这工作很棒，但顶部括号内的数字不适合我。这
android JSONArray 长度
我有一个来自 json 提要的数组，我知道在 jArray 中有一个联盟，但我需要计算出该数组的计数，以防稍后将第二个添加到提要中。目前 log cat 没有注销“teamFeedStructure”
嵌套列表的 Javascript 长度
目标:给定一个混合类型的数组，确定每个级别的元素数量。如果同一层有两个子数组，则它们的每个元素都计入该层元素的总数。方法: Array.prototype.elementsAtLevels = fu
java - 测量Java中单链表的大小/长度？
我需要帮助为 Java 中的单链表制作 int size(); 方法。这是我目前所拥有的，但它没有返回正确的列表大小。 public int size() { int size = 0;
Java DataInputStream 长度
我正在为学校作业创建一个文件服务器应用程序。我目前拥有的是一个简单的 Client 类，它通过 TCP 发送图像，还有一个 Server 类接收图像并将其写入文件。这是我的客户端代码 import
haskell - 理解(,)<$>长度<*>头部的类型
我有这对功能 (,) length :: Foldable t => t a -> b -> (Int, b) 和， head :: [a] -> a 我想了解的类型 (,) length he
github - 如何在Jekyll's Liquid模板中比较字符串大小/长度？
我正在GitHub Pages上使用Jekyll来构建博客，并希望获得传递给YAML前题中Liquid模板的page.title字符串的长度，该字符串在每个帖子的YAML主题中。我还没有找到一种简单的

首页

博学

6Ren·AI

商城

utf-8 - 一次一个字节地解析 Common Lisp 中已知长度的 UTF-8 字符串