gpt4 book ai didi

c - 特殊字符在 Linux 终端中显示不正确

转载 作者:太空宇宙 更新时间:2023-11-04 08:38:25 25 4
gpt4 key购买 nike

我有一个以 UTF-8 编码的文件,如以下命令所示: file -i D.txt D.txt: text/plain; charset=utf-8
我只想一个接一个地显示每个字符,所以我这样做了:

FILE * F_entree = fopen("D.txt", "r");
if (! F_entree) usage("impossible d'ouvrir le fichier d'entrée");

char ligne[TAILLE_MAX];
while (fgets(ligne, TAILLE_MAX, F_entree))
{
string mot = strtok(strdup(ligne), "\t");

while (*mot++){printf("%c \n", *mot) ;}
}

但特殊字符在终端(在 Ubuntu 12 上)中显示不佳(而是显示 <?>)。我认为问题在于%c 中只能存放ASCII 码,但我如何显示那些特殊字符?

将这些字符保存在内存中(以实现树索引)的好方法是什么? (我知道最后一个问题不清楚,请不要犹豫,要求澄清。)

最佳答案

它不起作用,因为您的代码将多字节字符拆分为单独的字符。由于您的控制台期望一个有效的多字节代码,在看到第一个代码后,它没有收到正确的代码,您得到您的 <?> -- 自由翻译,“嗯?”。它没有收到正确的代码,因为您在其中填充了空格和换行符。

如果您以正确的顺序发送正确的代码,您的控制台只能正确解释 UTF8 字符。算法是:

  1. 下一个字符是 UTF-8 序列的起始码吗?如果不是,请打印并继续。
  2. 如果是,打印它并打印该字符的所有“下一个”代码。实际编码见Wikipedia on UTF8;我在下面的代码中采用了快捷方式。
  3. 然后才打印您的空格 (..?) 和换行符。

识别UTF8多字节字符的起始和长度的过程是这样的:

  1. “常规”(ASCII) 字符永远不会设置第 7 位。针对 0x80 进行测试足以将它们与 UTF8 区分开来。
  2. 每个 UTF8 字符序列位模式之一 110xxxxx1110xxxx11110xxx111110xx1111110x 之一。每个唯一的位模式都有相关联的额外字节数。例如,第一个需要 一个 额外的字节。 xxx 位与来自下一个字节的位组合以形成 16 位或更长的 Unicode 字符。 (毕竟,这就是 UTF8 的意义所在。)
  3. 每个下一个字节——不管有多少! - 具有位模式 10xxxxxx。重要提示:没有以前的模式以此代码开头!

因此,只要您看到任何 UTF8 字符,您就可以立即显示它所有“下一个”代码,只要它们以位模式 10...... 开头.这可以使用位掩码进行有效测试: value & 0xc0 ,结果应该是 0x80 。任何其他值都意味着它不再是“下一个”字节,所以你就完成了。

所有这些只有在您的源文件是有效的 UTF8 时才有效。如果您看到一些奇怪的输出,那很可能不是。如果您需要检查输入文件的有效性,您确实需要在维基百科页面中实现整个表,并检查每个 110xxxxx 字节是否真的后面跟着一个 10xxxxxx 字节,等等.出现在自身上的模式 10xxxxxx 表示错误。

权威的必读书籍是 Joel Spolsky 的 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) 。有关更多背景信息,另请参阅 UTF-8 and Unicode FAQ for Unix/Linux


我下面的代码解决了您的一些其他问题。我使用了英文变量名(参见 Meta Stackoverflow "Foreign variable names etc. in code" )。在我看来 strdup 是没有必要的。此外,string 是一个 C++ 表达式。

我的代码不会“修复”或处理 UTF-8 打印以外的任何内容。由于您使用 strtok ,代码仅在输入文件的每一行上打印第一个 \t 制表符之前的文本。我假设你知道你在那里做什么 ;-)

补充: 啊,忘了解决问题 2,“将这些字符保存在内存中的好方法是什么”。 UTF8 旨在最大限度地兼容 C 类型 char 字符串。您可以安全地存储它们。您不需要做任何特殊的事情来在支持 UTF8 的控制台上打印它们——好吧,除非您像这里一样做一些事情,将它们打印为单独的字符。 printf 应该可以很好地处理整个单词。

如果您需要 strcmpstrchrstrlen 的 UTF8 感知等效项,您可以滚动自己的代码(请参阅上面的 Wikipedia 链接)或找到一个好的预制库。 (我故意遗漏了 strcpy!)

#define MAX_LINE_LENGTH 1024

int main (void)
{
char line[MAX_LINE_LENGTH], *word;

FILE *entry_file = fopen("D.txt", "r");

if (!entry_file)
{
printf ("not possible to open entry_file\n");
return -1;
}

while (fgets(line, MAX_LINE_LENGTH, entry_file))
{
word = strtok(line, "\t");

while (*word)
{
/* print UTF8 encoded characters as a single entity */
if (*word & 0x80)
{
do
{
printf("%c", *word);
word++;
} while ((*word & 0xc0) == 0x80);
printf ("\n");
} else
{
/* print low ASCII characters as-is */
printf("%c \n", *word);
word++;
}
}
}

return 0;
}

关于c - 特殊字符在 Linux 终端中显示不正确,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25097275/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com