- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有一个以 UTF-8 编码的文件,如以下命令所示: file -i D.txt D.txt: text/plain; charset=utf-8
我只想一个接一个地显示每个字符,所以我这样做了:
FILE * F_entree = fopen("D.txt", "r");
if (! F_entree) usage("impossible d'ouvrir le fichier d'entrée");
char ligne[TAILLE_MAX];
while (fgets(ligne, TAILLE_MAX, F_entree))
{
string mot = strtok(strdup(ligne), "\t");
while (*mot++){printf("%c \n", *mot) ;}
}
但特殊字符在终端(在 Ubuntu 12 上)中显示不佳(而是显示 <?>
)。我认为问题在于%c 中只能存放ASCII 码,但我如何显示那些特殊字符?
将这些字符保存在内存中(以实现树索引)的好方法是什么? (我知道最后一个问题不清楚,请不要犹豫,要求澄清。)
最佳答案
它不起作用,因为您的代码将多字节字符拆分为单独的字符。由于您的控制台期望一个有效的多字节代码,在看到第一个代码后,它没有收到正确的代码,您得到您的 <?>
-- 自由翻译,“嗯?”。它没有收到正确的代码,因为您在其中填充了空格和换行符。
如果您以正确的顺序发送正确的代码,您的控制台只能正确解释 UTF8 字符。算法是:
识别UTF8多字节字符的起始和长度的过程是这样的:
0x80
进行测试足以将它们与 UTF8 区分开来。110xxxxx
、 1110xxxx
、 11110xxx
、 111110xx
或 1111110x
之一。每个唯一的位模式都有相关联的额外字节数。例如,第一个需要 一个 额外的字节。 xxx
位与来自下一个字节的位组合以形成 16 位或更长的 Unicode 字符。 (毕竟,这就是 UTF8 的意义所在。)10xxxxxx
。重要提示:没有以前的模式以此代码开头!因此,只要您看到任何 UTF8 字符,您就可以立即显示它和所有“下一个”代码,只要它们以位模式 10......
开头.这可以使用位掩码进行有效测试: value & 0xc0
,结果应该是 0x80
。任何其他值都意味着它不再是“下一个”字节,所以你就完成了。
所有这些只有在您的源文件是有效的 UTF8 时才有效。如果您看到一些奇怪的输出,那很可能不是。如果您需要检查输入文件的有效性,您确实需要在维基百科页面中实现整个表,并检查每个 110xxxxx
字节是否真的后面跟着一个 10xxxxxx
字节,等等.出现在自身上的模式 10xxxxxx
表示错误。
权威的必读书籍是 Joel Spolsky 的 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) 。有关更多背景信息,另请参阅 UTF-8 and Unicode FAQ for Unix/Linux。
我下面的代码解决了您的一些其他问题。我使用了英文变量名(参见 Meta Stackoverflow "Foreign variable names etc. in code" )。在我看来 strdup
是没有必要的。此外,string
是一个 C++ 表达式。
我的代码不会“修复”或处理 UTF-8 打印以外的任何内容。由于您使用 strtok
,代码仅在输入文件的每一行上打印第一个 \t
制表符之前的文本。我假设你知道你在那里做什么 ;-)
补充: 啊,忘了解决问题 2,“将这些字符保存在内存中的好方法是什么”。 UTF8 旨在最大限度地兼容 C 类型 char
字符串。您可以安全地存储它们。您不需要做任何特殊的事情来在支持 UTF8 的控制台上打印它们——好吧,除非您像这里一样做一些事情,将它们打印为单独的字符。 printf
应该可以很好地处理整个单词。
如果您需要 strcmp
、 strchr
和 strlen
的 UTF8 感知等效项,您可以滚动自己的代码(请参阅上面的 Wikipedia 链接)或找到一个好的预制库。 (我故意遗漏了 strcpy
!)
#define MAX_LINE_LENGTH 1024
int main (void)
{
char line[MAX_LINE_LENGTH], *word;
FILE *entry_file = fopen("D.txt", "r");
if (!entry_file)
{
printf ("not possible to open entry_file\n");
return -1;
}
while (fgets(line, MAX_LINE_LENGTH, entry_file))
{
word = strtok(line, "\t");
while (*word)
{
/* print UTF8 encoded characters as a single entity */
if (*word & 0x80)
{
do
{
printf("%c", *word);
word++;
} while ((*word & 0xc0) == 0x80);
printf ("\n");
} else
{
/* print low ASCII characters as-is */
printf("%c \n", *word);
word++;
}
}
}
return 0;
}
关于c - 特殊字符在 Linux 终端中显示不正确,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25097275/
使用 Guake 终端这个可自定义且强大的适合各种用户的工具快速访问你的终端。 Guake 终端:GNOME 桌面中自上而下终端 Guake 是一款为 GNOME
我是 python 的新手,正在尝试运行 python 2.7 script .获得了 python 2.7 的 pip 并从 mac 终端 shell 安装了 pyCrypto 的依赖项。 我想尝试
我正在寻找一种在 Swift (macOS) 中运行终端命令的方法。我遇到了this发布,但我似乎无法获得任何解决方案。我正在尝试从我的应用程序关闭我的 mac,就像您可以从终端执行的那样(osasc
我在 macOS 上使用 bash 终端。 用户名、计算机名和文件路径占据了大部分行,所以如果我写一个长命令,我会从一行开始,然后在下一行继续。 相反,我希望行光标从用户名和计算机名下方的下一行开始。
是否有一个变量或函数可以告诉我光标的实际位置? #!/usr/bin/env perl use warnings; use 5.012; use Term::ReadKey; use Term::Ca
如何在 Mac Os X(10.6.8) 上的 gnuplot 中启用 tikz 终端? 我有工作 tikz 的 latex 。现在我从 http://www.lua.org/ 安装了 lua并下载g
我正在学习一个名为 Starting a Django 1.4 Project the Right Way 的教程,其中提供了有关如何使用 virtualenv 和 virtualenvwrapper
我正在尝试用java编写一个unix终端模拟器。我有很多麻烦。我似乎无法更改程序的工作目录,因此“cd”等命令无法正常工作。我的问题是,如果我运行一个需要用户输入的命令,有什么方法可以将该输入发送到正
我在这方面完全是个新手(Mac leopard 中的终端),我希望能从网络上获得生命线,因为我确实碰壁了。 我想在终端中以 root 身份运行脚本。该脚本保存为扩展名为 .rtf 的文本文件。我已经插
尝试在我的 osascript 命令中包含引号 ' ' 时遇到了一个奇怪的问题。 如果我尝试转义一个正常的可转义字符,它就可以正常工作。示例: osascript -e 'tell app "Find
我正在制作一个控制台 Java 应用程序,您可以在其中输入控制台命令,例如 Macintosh/Ubuntu/Windows 命令提示符上的终端,然后将其输出到日志。 我想知道,在执行系统/控制台命令
在终端中输入 mysql 命令并按回车键会换行。 但有时当我犯错时,即使用分号结束语句也无法退出此模式。 Ctrl + c 退出mysql。我怎样才能退出插入模式? 最佳答案 你必须用 ';' 结束
我正在尝试编写一个 C 代码来打开 xeyes 应用程序,然后那些眼睛在特定的时间段内不断改变其颜色.. 我尝试通过执行具有一种中心颜色的 xeyes、添加 3 秒的延迟、终止进程并在循环内打开具有另
是否有一种语法允许我在 System.out.println() 行 的同一行中读取用户的输入? 例子: What is your name?:(<-- Output) Jack (<-- In
我有一个 Wordpress 上传文件夹,该文件夹使用子文件夹构建了几个月。 wolfr2:uploads wolfr$ tree . . |-- 2007 | |-- 08 | | |-
如何从 mac 终端使用 sqlite3 找出表的列名?我忘记了我给这些列起的名字,我也不知道这些名字是怎么来的。谢谢! 最佳答案 来自 http://www.sqlite.org/sqlite.ht
我需要我的终端发送一个未使用的控制字符或转义序列,它在所有层都没有效果:被shell(bash,…)忽略,被行编辑器(readline,…)忽略,被所有应用程序(vim,less,mutt,…)忽略。
我做了一个文本编辑器,我想把它移植到 Linux 上,这样我就可以通过 SSH 远程使用它。我不太了解 Linux 终端,所以也许我遗漏了一些明显的东西,因为我简直不敢相信在 2013 年远程终端仍然
我最近想放一个 java 类文件供下载,人们可以在终端中运行它。这是一个 Minecraft 命令生成器,因此下载它的人不一定具有最大的心智能力(当然,我指的是 8 岁的 child ,他们不知道自己
我有一个文件“test.txt”,里面有一个数字列表,就像这样 1 3 4 2 3 40 312 53 243 321 423 ...etc 我还有一个可执行文件,它是一种排序算法,例如 hea
我是一名优秀的程序员,十分优秀!