gpt4 book ai didi

c++ - std::cout 可以在 Windows 上使用 UTF-8 吗?

转载 作者:搜寻专家 更新时间:2023-10-31 01:33:44 71 4
gpt4 key购买 nike

我想让 std::cout 打印一个 UTF-8 文字。这对于 gcc 来说似乎是一项简单的任务,但对于 Windows 来说却是一项极其困难的任务。

我要开始工作的代码是:

std::cout << "Ελληνικά Русский 你好";

环境:

  • Windows 10、Visual Studio 2015
  • 默认编码:1251
  • 控制台编码:866
  • 源代码编码:带 BOM 的 UTF-8

要求:

  • 不得对代码行本身进行任何更改
  • 完整的 Unicode 范围支持
  • 可以在main()的开头添加一些设置代码

我尝试过的:

  • #pragma execution_character_set("utf-8")
  • SetConsoleCP(CP_UTF8); SetConsoleOutputCP(CP_UTF8);
  • 将控制台字体设置为 Lucida Console 系统范围
  • 在项目属性中使用Unicode字符集
  • 来自 this 的设置代码博客

没有任何帮助,StackOverflow 的回答也没有解决问题。

编辑

要让 Unicode 部分工作,请执行以下操作:

  • 在开始时从下面的 list 中调用 initStreams()
  • 在项目设置中开启使用Unicode字符集
  • 添加/utf-8选项

不工作:

  • wprintf
  • cin/wcin
  • 汉字

initStreams() 实现:

#include <cassert>         // assert
#include <codecvt> // std::codecvt_utf8 (C++11)
#include <stdexcept> // std::exception
#include <streambuf> // std::basic_streambuf
#include <iostream> // std::cout, std::endl
#include <locale> // std::locale
#include <memory> // std::unique_ptr (C++11)

#undef UNICODE
#define UNICODE
#undef STRICT
#define STRING
#include <windows.h> // MultiByteToWideChar

class OutputForwarderBuffer : public std::basic_streambuf<char>
{
public:
using Base = std::basic_streambuf<char>;
using Traits = Base::traits_type;
using StreamBuffer = std::basic_streambuf<char>;
using WideStreamBuffer = std::basic_streambuf<wchar_t>;
using Base::int_type;
using Base::char_type;

OutputForwarderBuffer(
StreamBuffer& existingBuffer,
WideStreamBuffer* pWideStreamBuffer
)
: Base(existingBuffer)
, pWideStreamBuffer_(pWideStreamBuffer)
{
}

OutputForwarderBuffer(OutputForwarderBuffer const&) = delete;
void operator=(OutputForwarderBuffer const&) = delete;

protected:
std::streamsize xsputn(char const* s, std::streamsize n) override
{
if (n == 0) { return 0; }

int const sourceSize = static_cast<int>(n);
int const destinationSize = MultiByteToWideChar(CP_UTF8, 0, s, sourceSize, nullptr, 0);
wideCharBuffer_.resize(static_cast<size_t>(sourceSize));

int const nWideCharacters = MultiByteToWideChar(CP_UTF8, 0, s, sourceSize, &wideCharBuffer_[0], destinationSize);
assert(nWideCharacters > 0 && nWideCharacters == destinationSize);

return pWideStreamBuffer_->sputn(&wideCharBuffer_[0], destinationSize);
}

int_type overflow(int_type c) override
{
bool const cIsEOF = Traits::eq_int_type(c, Traits::eof());
int_type const failureValue = Traits::eof();
int_type const successValue = (cIsEOF ? Traits::not_eof(c) : c);

if (!cIsEOF) {
char_type const ch = Traits::to_char_type(c);
std::streamsize const nCharactersWritten = xsputn(&ch, 1);

return (nCharactersWritten == 1 ? successValue : failureValue);
}
return successValue;
}

private:
WideStreamBuffer* pWideStreamBuffer_;
std::wstring wideCharBuffer_;
};

void setUtf8Conversion(std::basic_ios<wchar_t>& stream)
{
stream.imbue(std::locale(std::locale::empty(), new std::codecvt_utf8_utf16<wchar_t>()));
}

bool isConsole(HANDLE streamHandle)
{
DWORD consoleMode;
return !!GetConsoleMode(streamHandle, &consoleMode);
}

bool isConsole(DWORD stdStreamId)
{
return isConsole(GetStdHandle(stdStreamId));
}

void initStreams()
{
SetConsoleCP(CP_UTF8);
SetConsoleOutputCP(CP_UTF8);

setUtf8Conversion(std::wcout);
setUtf8Conversion(std::wcerr);
setUtf8Conversion(std::wclog);

static OutputForwarderBuffer coutBuffer(*std::cout.rdbuf(), std::wcout.rdbuf());
static OutputForwarderBuffer cerrBuffer(*std::cerr.rdbuf(), std::wcerr.rdbuf());
static OutputForwarderBuffer clogBuffer(*std::clog.rdbuf(), std::wclog.rdbuf());

std::cout.rdbuf(&coutBuffer);
std::cerr.rdbuf(&cerrBuffer);
std::clog.rdbuf(&clogBuffer);
}

最佳答案

这是我要做的:

  1. 确保您的源文件采用 utf-8 编码且内容正确(在另一个编辑器中打开它们,检查字形和文件编码)

  2. 从等式中删除控制台——将输出重定向到文件并使用支持 utf-8 的编辑器检查其内容(就像使用源代码一样)

  3. 在 MSVC2015+ 中使用/utf-8 cmdline 选项——这将强制编译器将所有源文件视为 utf-8 编码一次,并且存储在生成的二进制文件中的字符串文字将采用 utf-8 编码。

  4. 从等式中删除 iostreams(不能等到这个库死掉,tbh)——使用 cstdio

  5. 此时输出应该可以工作(它对我有用)

  6. 让控制台输出正常工作——使用 SetConsoleOutputCP(CP_UTF8) 并让它使用支持您的 Unicode 平面的 TrueType 字体(我怀疑中文字符在控制台中工作需要在您的系统中安装支持相关 Unicode 平面 的字体,并且您的控制台应该配置为使用它)

  7. 不确定控制台输入(从来没有处理过),但我怀疑 SetConsoleCP(CP_UTF8) 应该使它与非宽输入/输出一起工作

  8. 放弃使用宽输入/输出(wcout/等)的想法——你为什么要这么做? Unicode 与 utf-8 编码的 char const*

  9. 配合得很好
  10. 一旦您达到此阶段 -- 是处理 iostreams 的时候了(如果您坚持使用它)。我暂时忽略 wcin/wcout。如果它们还不能工作——尝试使用 utf-8 语言环境灌输相关的 cin/cout。

  11. http://utf8everywhere.org/ 提出的想法仅当您进行 Windows API 调用时才转换为 UCS-2。这使您的 OutputForwarderBuffer 变得不必要。

  12. 我想(如果您真的坚持)现在您可以尝试让宽 iostream 工作。祝你好运,我想你必须重新配置控制台(这会破坏非宽输入/输出)或者以某种方式让你的 wcout/wcin 即时执行 UCS2 到 UTF8 的转换(并且只有当它连接到控制台时) .

编辑:从 Windows 10 开始,您还需要:

setvbuf(stderr, NULL, _IOFBF, 1024);    // on Windows 10+ we need buffering or console will get 1 byte at a time (screwing up utf-8 encoding)
setvbuf(stdout, NULL, _IOFBF, 1024);

不幸的是,这也意味着如果您在下一次刷新之前完全填充缓冲区,仍然有可能搞砸您的输出。正确的解决方案——在每个字符串发送到输出后手动刷新它(endlfflush())(假设每个字符串小于 1024)。如果只有 MS 支持行缓冲...

关于c++ - std::cout 可以在 Windows 上使用 UTF-8 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40894874/

71 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com