gpt4 book ai didi

c - C中字节的Unicode代码点流?

转载 作者:太空狗 更新时间:2023-10-29 17:24:25 24 4
gpt4 key购买 nike

我正在用 C 编写一个 HTML 解析器,并希望正确遵循 the W3C guidelines on parser implementation .关键点之一是解析器对 Unicode 代码点流而不是字节流进行操作,这是有道理的。

那么,基本上,给定一个缓冲区已知字符编码(我将得到一个明确的输入编码,或者将使用 HTML5 预扫描算法进行很好的猜测),最好的方法是什么在 C 中——理想情况下是跨平台的,但坚持使用 UNIX 也很好——迭代等效的 Unicode 代码点序列?

分配一些合理大小的缓冲区并使用 iconv 是可行的方法吗?我应该看ICU吗? U16_NEXT 之类的宏似乎很适合我的任务,但 ICU 文档冗长得令人难以置信,而且很难看出究竟如何将它们粘合在一起。

最佳答案

ICU是个不错的选择。我将它与 C++ 一起使用并且非常喜欢它。我很确定您也会在 C 中获得类似的经过深思熟虑的 API。

不完全相同但有些相关的可能是这个 tutorial这解释了如何执行流式/增量音译(在这种情况下,困难在于“光标”有时可能在代码点内部)。

关于c - C中字节的Unicode代码点流?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13963319/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com