gpt4 book ai didi

c++ - 文件名如何在 `char` 和 2 字节字符之间工作?

转载 作者:太空宇宙 更新时间:2023-11-04 12:35:00 24 4
gpt4 key购买 nike

我正在为我的应用程序创建 boost::filesystem 的包装器。我正在研究如果文件名中有一些非 ASCII 字符会发生什么情况。

在 Windows 上,the documentation表示所有字符都是 wchar_t。这是非常容易理解和连贯的。

但是在 Linux 上,the documentation表示所有字符都是 char!所以 1 字节字符。我想知道,这甚至可以读取非 ASCII 字符吗?因此,我创建了一个目录,其名称为阿拉伯语 Êìريب(这是一个 5 个字母的单词),并使用 boost::filesystem 读取它。我在终端上打印了它,它工作正常(除了终端,终结器,把它错误地写成从左到右)。终端上的打印结果是:

/mnt/hgfs/D/تجريب

有些事情并没有加起来。这怎么可能是 1 字节的 char 字符串,并且仍然打印阿拉伯名称?所以我做了以下事情:

std::for_each(path.string().begin(), path.string().end(), [](char c) {
std::cout<<c<<std::endl;
});

然后运行它给出了 path 是我上面提到的目录的地方,给出了:

/
m
n
t
/
h
g
f
s
/
D
/










在这一点上,我真的,真的迷路了。阿拉伯语单词是 10 个字节,创建一个 5 个字母的单词。

问题来了:部分字符为1字节,部分字符为2字节。 linux 如何知道那些 2 个字符是单个 2 字节字符?这是否意味着我永远不需要在 Linux 上为其文件系统设置 2 字节字符,而 char 对所有语言都适用?

有人可以解释一下这是如何工作的吗?

最佳答案

好的。答案是这是 UTF-8 编码,在设计上是可变长度的。在 Wikipedia ,它回答了我的问题:“linux 如何知道那些 2 个字符是单个 2 字节字符?”

答案是从那里引用的:

Since ASCII bytes do not occur when encoding non-ASCII code points into UTF-8, UTF-8 is safe to use within most programming and document languages that interpret certain ASCII characters in a special way, such as end of string.

因此,在解释字母时没有歧义。

关于c++ - 文件名如何在 `char` 和 2 字节字符之间工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42178857/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com