gpt4 book ai didi

c++ - setlocale 函数有什么作用?

转载 作者:行者123 更新时间:2023-11-28 04:26:01 26 4
gpt4 key购买 nike

我编写了一个将 wstring 转换为字符串的函数。如果我删除代码 setlocale(LC_CTYPE, ""),程序就会出错。我引用了 cplusplus阅读文档。

C string containing the name of a C locale. These are system specific, but at least the two following locales must exist:

"C" Minimal "C" locale
"" Environment's default locale

If the value of this parameter is NULL, the function does not make any changes to the current locale, but the name of the current locale is still returned by the function.

我的代码在这里,源代码来自cplusplus.com(我添加了一些汉字):

/* wcstombs example */
#include <stdio.h> /* printf */
#include <stdlib.h> /* wcstombs, wchar_t(C) */
#include <locale.h> /* setlocale */
int main()
{
setlocale(LC_CTYPE, "");
const wchar_t str[] = L"中国、wcstombs example";
char buffer[64];
int ret;

printf ("wchar_t string: %ls \n",str);

ret = wcstombs ( buffer, str, sizeof(buffer) );
if (ret==64)
buffer[63]='\0';
if (ret)
printf ("length:%d,multibyte string: %s \n",ret,buffer);

return 0;
}

如果我删除代码 setlocale(LC_CTYPE, ""),程序不会按预期运行。我的问题是:“如果我在不同的机器上运行,程序会有所不同?正如文档所说,如果区域设置为“”,函数不会对当前区域设置进行任何更改,但仍会返回当前区域设置的名称由函数。”因为不同机器的当前语言环境可能不同?

这里是我的c++版本的wstring转wstring,string转wstring不需要函数setlocale,程序运行良好:

/*
string converts to wstring
*/
std::wstring s2ws(const std::string& src)
{
std::wstring res = L"";
size_t const wcs_len = mbstowcs(NULL, src.c_str(), 0);
std::vector<wchar_t> buffer(wcs_len + 1);
mbstowcs(&buffer[0], src.c_str(), src.size());
res.assign(buffer.begin(), buffer.end() - 1);

return res;
}

/*
wstring converts to string
*/
std::string ws2s(const std::wstring & src)
{
setlocale(LC_CTYPE, "");

std::string res = "";

size_t const mbs_len = wcstombs(NULL, src.c_str(), 0);

std::vector<char> buffer(mbs_len + 1);

wcstombs(&buffer[0], src.c_str(), buffer.size());

res.assign(buffer.begin(), buffer.end() - 1);

return res;
}

最佳答案

如果 setlocale 的第二个参数为 NULL,它除了返回当前区域设置外什么都不做。但你没有那样做。您向它发送一个完全由单个零字节组成的字符串,又名 ""。我的 setlocale 手册页说

If locale is an empty string, "", each part of the locale that should be modified is set according to the environment variables. The details are implementation-dependent.

因此,这为您所做的是将语言环境设置为用户指定的任何内容或系统默认值。

根本不运行 setlocale 可能会使当前语言环境在您的系统上未初始化或为 NULL,这就是为什么您的程序在没有该设置的情况下失败的原因。

你正在使用的东西的另外两个手册页说

The behavior of mbstowcs() depends on the LC_CTYPE category of the current locale.

The behavior of wcstombs() depends on the LC_CTYPE category of the current locale.

如果您根本没有设置语言环境,大概这些例程是失败的。

我猜你可能不需要在每次调用这些例程时都运行 setlocale 语句,但你需要确保它在运行它们之前至少运行一次。

至于根据当前语言环境发生的不同情况,我相信这就是多字节字符串如何准确地转换为宽字符,反之亦然。我认为由于这种差异,这些例程的手册页使其含糊不清。就个人而言,我更喜欢它设置一些示例,例如,“如果当前语言环境是C,则多字节字符串是ASCII 字符。”我想至少还有一个被解释为 UTF-8,但我对不同的语言环境了解不多,无法准确地说出是哪一个。可能至少还有一种语言环境,其中多字节字符串恰好是每个字符编码的另外两个字节,但 C 和 C++ 仍会将其视为字节。

编辑:再考虑一下,鉴于您添加到示例代码中的字符,明确声明使用不支持中文字符的语言环境将导致最终 printf 报告长度为 -1 可能是有意义的,这包括默认的 C 语言环境。在这种情况下,标准并没有明确指定缓冲区的内容——至少,我对它的阅读表明缓冲区值可能是所有字符,但不包括转换失败的字符。虽然 C++ 文档和 C 文档都没有说明关于无法转换的字符会发生什么。我没有为官方标准付费,但我有最新免费版本的拷贝。 C++17 遵循 C17。 C17 也避免对此功能的这一方面发表评论。对于 wcsrtombs,它明确声明转换状态未指定。然而,在 wcstombs_s 上,C17 状态

If the conversion stops without converting a null wide character and dst is not a null pointer, then a null character is stored into the array pointed to by dst immediately following any multibyte characters already stored.

在我自己对上述 OP 提供的代码进行的实验中,Fedora 28 上的 wcstombs 实现似乎只是避免对缓冲区进行任何进一步的更改。这似乎向我表明,如果代码的确切行为对这种情况很重要,那么使用 wcstombs_s 可能更有意义。但至少,您只需检查返回的长度是否为 -1,如果是,则报告错误而不是假设转换成功。

关于c++ - setlocale 函数有什么作用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54319520/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com