c - 特殊字符在 Linux 终端中显示不正确-6ren

c - 特殊字符在 Linux 终端中显示不正确

转载作者：太空宇宙更新时间：2023-11-04 08:38:25

25

4

我有一个以 UTF-8 编码的文件，如以下命令所示: file -i D.txt D.txt: text/plain; charset=utf-8我只想一个接一个地显示每个字符，所以我这样做了:

FILE * F_entree = fopen("D.txt", "r");
if (! F_entree) usage("impossible d'ouvrir le fichier d'entrée");

char ligne[TAILLE_MAX];
while (fgets(ligne, TAILLE_MAX, F_entree))
{
    string mot = strtok(strdup(ligne), "\t");

    while (*mot++){printf("%c \n", *mot) ;}     
}

但特殊字符在终端(在 Ubuntu 12 上)中显示不佳(而是显示 <?>)。我认为问题在于%c 中只能存放ASCII 码，但我如何显示那些特殊字符？

将这些字符保存在内存中(以实现树索引)的好方法是什么？ (我知道最后一个问题不清楚，请不要犹豫，要求澄清。)

最佳答案

它不起作用，因为您的代码将多字节字符拆分为单独的字符。由于您的控制台期望一个有效的多字节代码，在看到第一个代码后，它没有收到正确的代码，您得到您的 <?> -- 自由翻译，“嗯？”。它没有收到正确的代码，因为您在其中填充了空格和换行符。

如果您以正确的顺序发送正确的代码，您的控制台只能正确解释 UTF8 字符。算法是:

下一个字符是 UTF-8 序列的起始码吗？如果不是，请打印并继续。
如果是，打印它并打印该字符的所有“下一个”代码。实际编码见Wikipedia on UTF8；我在下面的代码中采用了快捷方式。
然后才打印您的空格 (..?) 和换行符。

识别UTF8多字节字符的起始和长度的过程是这样的:

“常规”(ASCII) 字符永远不会设置第 7 位。针对 0x80 进行测试足以将它们与 UTF8 区分开来。
每个 UTF8 字符序列以位模式之一 110xxxxx 、 1110xxxx 、 11110xxx 、 111110xx 或 1111110x 之一。每个唯一的位模式都有相关联的额外字节数。例如，第一个需要一个额外的字节。 xxx 位与来自下一个字节的位组合以形成 16 位或更长的 Unicode 字符。 (毕竟，这就是 UTF8 的意义所在。)
每个下一个字节——不管有多少! - 具有位模式 10xxxxxx。重要提示:没有以前的模式以此代码开头!

因此，只要您看到任何 UTF8 字符，您就可以立即显示它和所有“下一个”代码，只要它们以位模式 10...... 开头.这可以使用位掩码进行有效测试: value & 0xc0 ，结果应该是 0x80 。任何其他值都意味着它不再是“下一个”字节，所以你就完成了。

所有这些只有在您的源文件是有效的 UTF8 时才有效。如果您看到一些奇怪的输出，那很可能不是。如果您需要检查输入文件的有效性，您确实需要在维基百科页面中实现整个表，并检查每个 110xxxxx 字节是否真的后面跟着一个 10xxxxxx 字节，等等.出现在自身上的模式 10xxxxxx 表示错误。

权威的必读书籍是 Joel Spolsky 的 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) 。有关更多背景信息，另请参阅 UTF-8 and Unicode FAQ for Unix/Linux。

我下面的代码解决了您的一些其他问题。我使用了英文变量名(参见 Meta Stackoverflow "Foreign variable names etc. in code" )。在我看来 strdup 是没有必要的。此外，string 是一个 C++ 表达式。

我的代码不会“修复”或处理 UTF-8 打印以外的任何内容。由于您使用 strtok ，代码仅在输入文件的每一行上打印第一个 \t 制表符之前的文本。我假设你知道你在那里做什么 ;-)

补充: 啊，忘了解决问题 2，“将这些字符保存在内存中的好方法是什么”。 UTF8 旨在最大限度地兼容 C 类型 char 字符串。您可以安全地存储它们。您不需要做任何特殊的事情来在支持 UTF8 的控制台上打印它们——好吧，除非您像这里一样做一些事情，将它们打印为单独的字符。 printf 应该可以很好地处理整个单词。

如果您需要 strcmp 、 strchr 和 strlen 的 UTF8 感知等效项，您可以滚动自己的代码(请参阅上面的 Wikipedia 链接)或找到一个好的预制库。 (我故意遗漏了 strcpy!)

#define MAX_LINE_LENGTH 1024

int main (void)
{
    char line[MAX_LINE_LENGTH], *word;

    FILE *entry_file = fopen("D.txt", "r");

    if (!entry_file)
    {
        printf ("not possible to open entry_file\n");
        return -1;
    }

    while (fgets(line, MAX_LINE_LENGTH, entry_file))
    {
        word = strtok(line, "\t");

        while (*word)
        {
            /* print UTF8 encoded characters as a single entity */
            if (*word & 0x80)
            {
                do
                {
                    printf("%c", *word);
                    word++;
                } while ((*word & 0xc0) == 0x80);
                printf ("\n");
            } else
            {
                /* print low ASCII characters as-is */
                printf("%c \n", *word);
                word++;
            }
        }     
    }

    return 0;
}

关于c - 特殊字符在 Linux 终端中显示不正确，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25097275/

25

4

0

文章推荐： c - Switch-Case 语句似乎卡住了我的循环

文章推荐： html - 将两个图像居中，但将它们放在不同的行中？

文章推荐： c - 二叉搜索树insert方法返回指向节点的指针

Guake 终端：一个灵感来自于 FPS 游戏的 Linux 终端
使用 Guake 终端这个可自定义且强大的适合各种用户的工具快速访问你的终端。 Guake 终端：GNOME 桌面中自上而下终端 Guake 是一款为 GNOME
python - 如何更改 Visual Studio 代码中的终端以使用非 Rosetta 终端，即让它使用 arm64 终端？
我是 python 的新手，正在尝试运行 python 2.7 script .获得了 python 2.7 的 pip 并从 mac 终端 shell 安装了 pyCrypto 的依赖项。我想尝试
swift +终端
我正在寻找一种在 Swift (macOS) 中运行终端命令的方法。我遇到了this发布，但我似乎无法获得任何解决方案。我正在尝试从我的应用程序关闭我的 mac，就像您可以从终端执行的那样(osasc
bash 终端，希望光标显示在下一行的开头
我在 macOS 上使用 bash 终端。用户名、计算机名和文件路径占据了大部分行，所以如果我写一个长命令，我会从一行开始，然后在下一行继续。相反，我希望行光标从用户名和计算机名下方的下一行开始。
perl - 终端:我在哪里？
是否有一个变量或函数可以告诉我光标的实际位置？ #!/usr/bin/env perl use warnings; use 5.012; use Term::ReadKey; use Term::Ca
gnuplot tikz 终端
如何在 Mac Os X(10.6.8) 上的 gnuplot 中启用 tikz 终端？我有工作 tikz 的 latex 。现在我从 http://www.lua.org/ 安装了 lua并下载g
macos - 终端:shell启动文件在哪里？
我正在学习一个名为 Starting a Django 1.4 Project the Right Way 的教程，其中提供了有关如何使用 virtualenv 和 virtualenvwrapper
Java Unix 终端
我正在尝试用java编写一个unix终端模拟器。我有很多麻烦。我似乎无法更改程序的工作目录，因此“cd”等命令无法正常工作。我的问题是，如果我运行一个需要用户输入的命令，有什么方法可以将该输入发送到正
终端 sudo 命令
我在这方面完全是个新手(Mac leopard 中的终端)，我希望能从网络上获得生命线，因为我确实碰壁了。我想在终端中以 root 身份运行脚本。该脚本保存为扩展名为 .rtf 的文本文件。我已经插
终端 Applescript 无法逃脱报价
尝试在我的 osascript 命令中包含引号 ' ' 时遇到了一个奇怪的问题。如果我尝试转义一个正常的可转义字符，它就可以正常工作。示例: osascript -e 'tell app "Find
java - 获取系统日志的完整输出(终端)
我正在制作一个控制台 Java 应用程序，您可以在其中输入控制台命令，例如 Macintosh/Ubuntu/Windows 命令提示符上的终端，然后将其输出到日志。我想知道，在执行系统/控制台命令
mysql - 终端，MySQL如何退出插入模式？
在终端中输入 mysql 命令并按回车键会换行。但有时当我犯错时，即使用分号结束语句也无法退出此模式。 Ctrl + c 退出mysql。我怎样才能退出插入模式？最佳答案你必须用 ';' 结束
在xeyes(终端)中永久改变中心颜色的c代码
我正在尝试编写一个 C 代码来打开 xeyes 应用程序，然后那些眼睛在特定的时间段内不断改变其颜色.. 我尝试通过执行具有一种中心颜色的 xeyes、添加 3 秒的延迟、终止进程并在循环内打开具有另
java - 在消息的同一行输入(终端)
是否有一种语法允许我在 System.out.println() 行的同一行中读取用户的输入？例子: What is your name?:(<-- Output) Jack (<-- In
bash - 递归地将嵌套文件夹内容复制到一个文件夹(终端)
我有一个 Wordpress 上传文件夹，该文件夹使用子文件夹构建了几个月。 wolfr2:uploads wolfr$ tree . . |-- 2007 | |-- 08 | | |-
ios - SQLite3 终端
如何从 mac 终端使用 sqlite3 找出表的列名？我忘记了我给这些列起的名字，我也不知道这些名字是怎么来的。谢谢! 最佳答案来自 http://www.sqlite.org/sqlite.ht
linux - 终端:发送禁止操作转义序列或控制字符
我需要我的终端发送一个未使用的控制字符或转义序列，它在所有层都没有效果：被shell（bash，…）忽略，被行编辑器（readline，…）忽略，被所有应用程序（vim，less，mutt，…）忽略。
支持全键盘的 Linux 终端？
我做了一个文本编辑器，我想把它移植到 Linux 上，这样我就可以通过 SSH 远程使用它。我不太了解 Linux 终端，所以也许我遗漏了一些明显的东西，因为我简直不敢相信在 2013 年远程终端仍然
java - 运行java类文件的简单方法(终端)
我最近想放一个 java 类文件供下载，人们可以在终端中运行它。这是一个 Minecraft 命令生成器，因此下载它的人不一定具有最大的心智能力(当然，我指的是 8 岁的 child ，他们不知道自己
c - 终端:来自文件的程序输入
我有一个文件“test.txt”，里面有一个数字列表，就像这样 1 3 4 2 3 40 312 53 243 321 423 ...etc 我还有一个可执行文件，它是一种排序算法，例如 hea

首页

博学

6Ren·AI

商城

c - 特殊字符在 Linux 终端中显示不正确