- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在创建一个猜测国家首都的小程序。一些大写字母带有重音符、变音符号等。
由于我必须比较大写字母和用户猜测的文本,而且我不希望口音搞乱比较,所以我在互联网上搜索了一些方法来实现这一点。
我遇到了无数其他编程语言的解决方案,但只有几个关于 C 的结果。
他们中没有一个真正和我一起工作过。虽然,我得出结论,我必须使用 wchar.h 库来处理那些烦人的字符
我编写了这一小段代码(将 É 替换为 E)只是为了检查此方法,根据我阅读和理解的所有内容,它不起作用,即使打印宽字符字符串也不会显示变音符号。如果它有效,我相信我可以在首都的计划中实现它,所以如果有人能告诉我哪里出了问题,我将不胜感激。
#include<stdio.h>
#include<locale.h>
#include<wchar.h>
const wchar_t CAPITAL_ACCUTE_E = L'\u00C9';
int main()
{
wchar_t wbuff[128];
setlocale(LC_ALL,"");
fputws(L"Say something: ", stdout);
fgetws(wbuff, 128, stdin);
int n;
int len = wcslen(wbuff);
for(n=0;n<len;n++)
if(wbuff[n] == CAPITAL_ACCUTE_E)
wbuff[n] = L'E';
wprintf(L"%ls\n", wbuff);
return 0;
}
最佳答案
您忽略的一个问题是 É
可以表示为
É
- LATIN CAPITAL LETTER E WITH ACUTE ,代码点 U+00C9(UTF-8 中的 c3 89
),或É
- LATIN CAPITAL LETTER E其次是 COMBINING ACUTE ACCENT , 代码点 U+0045 U+0301 (45 cc 81
in UTF-8)你需要考虑到这一点。这可以通过将两个字符串映射到 NFD (Normal Form: Decomposed) 来完成。 .之后,您可以剥离分解的组合字符并留下E
,然后您可以像往常一样strcmp
。
假设您有一个 UTF-8 编码的 input
,下面是您如何使用 utf8proc 来完成它:
#include <utf8proc.h>
utf8_t *output;
ssize_t len = utf8proc_map((uint8_t*)input, 0, &output,
UTF8PROC_NULLTERM | UTF8PROC_STABLE |
UTF8PROC_STRIPMARK | UTF8PROC_DECOMPOSE |
UTF8PROC_CASEFOLD
);
这会将所有 É
、É
和 E
变成普通的 e
。
关于C - 如何避免变音符号/口音敏感问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38425899/
我想解析以下 xml 结构: 为了解析这个 element name="?????? 结构,我按以下方式使用 XPath: XPath xPath
我在 OSX 机器上运行 Python 2.7。我正在尝试在 smb 共享上执行 os.walk。 for root, dirnames, filenames in os.walk("./test")
我是一名优秀的程序员,十分优秀!