- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在研究一个基本的手工编码词法扫描器,并希望支持 UTF-8 输入(现在已经不是 1970 年了!)。输入字符是从 stdin
或一个文件中读取的,一次一个,然后将其插入缓冲区,直到看到空格,等等。我考虑过为 fgetc()
编写自己的包装器而是返回组成 UTF-8 字符的字节的 char[]
并将结果作为字符串处理……这很容易,但会变得很滑。我宁愿不浪费时间重新发明轮子,而是使用现有的、经过测试的库,如 ICU .所以现在我有一个非 UTF-8 支持代码,可与 fgetc()
、isspace()
、strcmp()
等一起使用. 我正在尝试更新以使用 ICU。这是我第一次接触 ICU,一直在通读文档并尝试通过 Google 代码搜索找到使用示例,但仍然存在一些混淆点,我希望有人能够澄清。
u_fgetc()
函数返回UChar
,u_fgetcx()
返回UChar32
...文档建议使用 u_fgetcx()
来读取代码点,这就是我的起点。我保持与上面相同的方法,但我将 UChar32
插入缓冲区而不是 char
。
将字符与已知值进行比较的正确方法是什么?最初我能够执行 if (c == '+')
来检查是否从输入中获取了加号。当 c
是 UChar32
时,GCC 不会提示(这是 UChar32
和 char
之间的比较)但是这真的合适吗?
我能够使用 strcmp()
将缓冲字符与已知值进行比较,例如 if ((strcmp(buf, "else") == 0 )
。ICU 提供了u_strcmp()
,我想我可能需要使用U_STRING_DECL
和U_STRING_INIT
宏来指定已知的文字,但我不确定。文档显示它们导致 UChar[]
,但我假设我需要 UChar32[]
...而且我不确定如何正确使用它们。欢迎提供任何指导。
读入一系列数字字符后,我一直在使用 strtol()
转换它们,以便我可以使用它们。自从我现在正在转换 UChar32[]
后,ICU 是否提供了类似的功能?
最佳答案
UChar
用于存放一个代码单元,而UChar32
用于存放一个代码点。如果您的输入停留在 Basic Multilingual Plane (BMP),UChar
就足够了,事实上大多数 ICU 功能都在 UChar[]
上运行。
强烈推荐阅读 ICU User Guide ,其中解释了大部分内部结构和最佳实践。
将 Unicode 字符变量与已知值进行比较的正确方法是什么?字符(或 UChar
或 UChar32
)只是另一种具有特定宽度和符号的整数类型,可以与其他具有通常注意事项和限制的整数类型进行比较。至于定义一个字符值,C99(第6.4.3章)提供了通用字符名称表示法:\u
后跟四个十六进制数字,或者\U
后跟八个十六进制数字,指定 ISO/IEC 10646“短标识符”。 0x00a0 以下的区域(0x0024 '$'
、0x0040 '@'
和 0x0060(反引号)除外)被保留(但可以通过转换一个简单的字符常量来表示到 UChar
)。还保留了从 0xd800 到 0xdfff 的范围(供 UTF-16 使用)。
How to define Unicode string literals? U_STRING_DECL
和 U_STRING_INIT
确实是您要找的。 (如上所述,ICU 主要在 UChar[]
上运行。)如果您使用 C++ 而不是 C,UNICODE_STRING_SIMPLE
(可选地后跟 getTerminatedBuffer()
以再次产生 UChar[]
)提供了一种更舒适的定义 Unicode 字符串文字的方式。
如何将表示数字的 Unicode 字符串转换为该数字的值? unum_parse()
及其在 unum.h
中的兄弟会帮助你。
关于c - 更新一些扫描器代码以使用 ICU 时的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6165870/
我正在尝试学习 ICU 语法并希望能够表达在 ICU message format 中列出. 例如,给定数据: items: - cool - handy - neat 我希望能够生成如下
是否可以获得适当的大写,例如使用 ICU4C 的英文文本但没有构建任何自定义的非大写单词集?比如说,鉴于对峡湾的渴望,我希望获得对峡湾的渴望。 使用 ucasemap_utf8ToTitle() 和
我想编译 icu sqlite extension静态链接到 icu . 这是我试过的,也许错误对你来说是显而易见的。 > cd icu/source> ./runConfigureIcu Linux
我试图将我们 CI 环境中的 Node 版本从 Node 6 升级到 Node 8。我也更新了完整的 icu 版本。 $NODE_ICU_DATA 设置为 /usr/lib/node_modules/
我今天开始使用最新的 Android Build Tools (ABT) v19.0.3 收到消息。乍一看,我认为这可能是 ABT 的问题。然而,更仔细的调查显示这条消息: android.suppo
unicode 排序背后的理论是什么?我明白它是如何工作的,但我不明白为什么 they决定采用此标准进行归类排序。 似乎当您有两个字符串要比较时,例如使用 ucol_strcolliter(): uc
我的应用程序可能在一个列表中包含由不同字母/语言组成的字符串。我似乎无法找到有关对这些进行排序的正确方法应该是什么的任何信息,或者任何表明 ICU 支持此功能的迹象。 示例列表: 苹果 яблоко
如何在iPhone应用程序的工作区中使用ICU(Unicode国际组件)将sqlite编译为项目? 我之前已经编译了sqlite合并,但是我不确定应该下载哪些文件以及需要将哪些脚本添加到xcode中-
我正在尝试使用 ICU 音译器对某些文本进行非常具体的转换,如 here 所述. 我的文本包含半角片假名字符和常规拉丁字符。我想将半角片假名转换为全角片假名,同时保持非片假名字符不变。 我想简单地应用
有没有办法探测ICU library对于所有 UChar's表示库支持的货币符号? 我当前的解决方案是遍历所有语言环境并针对每个语言环境,执行如下操作: const DecimalFormatSymb
谁能解释为什么下面的比较不相等? void CompareTest() { UErrorCode status = U_ZERO_ERROR; UChar ruleset[500]; *rul
有没有办法探测 ICU最小面额的货币区域设置?例如,美国为 0.01 美元,韩国 (ko_KR) 为 ₩1。我想在 DecimalFormat object 上调用 getRoundingIncrem
我正在创建 SQLite3 的自定义构建,我想实现不区分大小写的文本列。 是否可以创建不区分大小写的排序规则? 最佳答案 你可能想调用 ucol_setStrength具有 UCOL_PRIMARY
我们有使用 ICU 库处理 Unicode 字符串的代码。当我们尝试构建它时,没有出现编译错误,但链接失败了。我用以下代码创建了一个小测试程序: #define U_STATIC_IMPLEMENTA
有人知道 ICU 字符集检测器的数据是如何构建的吗?添加其他语言是否困难? 例如,我在错误跟踪器中看到,自 2007 年以来就打开了检测泰语的票证,但直到今天都没有新内容。 谢谢 最佳答案 我会在 I
您好,我将我的sql语句修改为 CREATE VIRTUAL TABLE [v_fts] USING fts4 ( [title], tokenize=icu )" 但是当我尝试插入数据时出现错误
我的目标是逐个字符地迭代 Unicode 文本字符串,但下面的代码迭代的是代码单元而不是代码点,即使我使用的是 next32PostInc () 应该迭代代码点: void iterate_codep
是否可以在不退回到正则表达式的情况下使用 ICU 完成? 目前我规范化文件名是这样的: protected function normalizeFilename($filename) { $t
我了解 ICU 的本地化部分 - 日期、时间和货币格式、整理等。在消息翻译方面,我看到有人说 ICU 不提供消息翻译功能 - 例如查看 this SOF question . 但是,在查看 ICU 文
我想知道是否有一种方法可以在 ICU (c++) 库中引用字符串。存在 "\Q"+ string + "\E"但我生成的输入作为提供的字符串输入。似乎没有任何 ICU 引用正则表达式方法。只需将字符串
我是一名优秀的程序员,十分优秀!