gpt4 book ai didi

c - 在 C 中表示字符的最佳方式是什么?

转载 作者:行者123 更新时间:2023-12-02 01:34:32 28 4
gpt4 key购买 nike

我知道 char 可以被签名或未签名,具体取决于实现。如果我只想操作字节,这并不会真正打扰我。 (事实上​​,我不认为 char 数据类型是一个字符,而是一个字节)。

但是,如果我理解的话,字符串文字是 signed char(实际上它们不是,但请参阅下面的更新),函数 fgetc() 返回 unsigned char 被转换为 int。因此,如果我想操作字符,使用有符号、无符号或有歧义的字符是首选样式吗?为什么从文件中读取字符与文字具有不同的约定?

我问是因为我在 c 中有一些代码在字符串文字和文件内容之间进行字符串比较,但是 signed char *unsigned char * 可能确实使我的代码容易出错。

更新 1

好吧,正如一些人(在回答和评论中)指出的那样,字符串文字实际上是 char 数组,而不是 signed char 数组。这意味着我真的应该对字符串文字使用char *,而不是考虑它们是有符号的还是无符号的。这让我非常高兴(直到我必须开始使用无符号字符进行转换/比较)。

然而,重要的问题仍然存在,我如何从文件中读取字符,并将它们与字符串文字进行比较。其关键是从使用 fgetc() 读取的 int 转换为 char,fgetc() 显式地从文件读取 unsigned char类型,允许有符号或无符号。

请允许我提供一个更详细的示例。

int main(void)
{
FILE *someFile = fopen("ThePathToSomeRealFile.html", "r");
assert(someFile);

char substringFromFile[25];
memset((void*)substringFromFile,0,sizeof(substringFromFile));

//Alright, the real example is to read the first few characters from the file
//And then compare them to the string I expect
const char *expectedString = "<!DOCTYPE";

for( int counter = 0; counter < sizeof(expectedString)/sizeof(*expectedString); ++counter )
{
//Read it as an integer, because the function returns an `int`
const int oneCharacter = fgetc(someFile);
if( ferror(someFile) )
return EXIT_FAILURE;
if( int == EOF || feof(someFile) )
break;

assert(counter < sizeof(substringFromFile)/sizeof(*substringFromFile));

//HERE IS THE PROBLEM:
//I know the data contained in oneCharacter must be an unsigned char
//Therefore, this is valid
const unsigned char uChar = (const unsigned char)oneCharacter;
//But then how do I assign it to the char?
substringFromFile[counter] = (char)oneCharacter;
}

//and ultimately here's my goal
int headerIsCorrect = strncmp(substringFromFile, expectedString, 9);

if(headerIsCorrect != 0)
return EXIT_SUCCESS;
//else
return EXIT_FAILURE;
}

基本上,我知道我的 fgetc() 函数正在返回一些东西(经过一些错误检查后)可以编码为 unsigned char。我知道 char 可能是也可能不是 unsigned char。这意味着,根据 c 标准的实现,转换为 char 将涉及 重新解释。但是,如果系统是用带符号的 char 实现的,我不得不担心可以用 unsigned char 编码的值是不可编码的通过 char(即介于 (INT8_MAX UINT8_MAX] 之间的那些值)。

tl;博士

问题是,我应该 (1) 复制由 fgetc() 读取的底层数据(通过转换指针 - 别担心,我知道该怎么做),或者 (2) 从 向下转换unsigned charchar(只有当我知道这些值不能超过 INT8_MAX 时才安全,或者无论出于何种原因都可以忽略这些值)?

最佳答案

历史原因是(有人告诉我,我没有引用资料)char 类型从一开始就没有明确指定。

一些实现使用“一致的整数类型”,其中 charshortint 等都默认签名。这是有道理的,因为它使类型彼此一致。

其他实现对字符使用无符号,因为从来不存在任何带有负索引的符号表(那是愚蠢的)并且因为他们认为需要超过 128 个字符(一个非常有效的问题)。

当 C 得到适当的标准化时,改变它为时已晚,市场上已经有太多不同的编译器和为它们编写的程序。因此,出于向后兼容的原因,char 的符号由实现定义。

如果您仅使用它来存储字符/字符串,则char 的符号性并不重要。只有当您决定在算术表达式中使用 char 类型或使用它来存储整数值时,它才重要 - 这是一个非常糟糕的主意。

  • 对于字符/字符串,始终使用 char(或 wchar_t)。
  • 对于任何其他形式的 1 字节大数据,始终使用 uint8_tint8_t

But, if I understand, string literals are signed char

不,字符串文字是 char 数组。

the function fgetc() returns unsigned chars casted into int

不,它返回转换为 intchar。它是int,因为返回类型可能包含EOF,它是一个整数常量,而不是一个字符常量。

having a signed char * vs unsigned char * might really make my code error prone.

不,不是真的。正式地,标准中的这条规则适用:

A pointer to an object type may be converted to a pointer to a different object type. If the resulting pointer is not correctly aligned for the referenced type, the behavior is undefined. Otherwise, when converted back again, the result shall compare equal to the original pointer.

从指向 signed char 的指针强制转换为指向 unsigned char 的指针,反之亦然,不会导致任何对齐问题或其他问题。

关于c - 在 C 中表示字符的最佳方式是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32008847/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com