windows - 在命令提示符/Windows Powershell(Windows 10)中使用UTF-8编码(CHCP 65001)-6ren

windows - 在命令提示符/Windows Powershell(Windows 10)中使用UTF-8编码(CHCP 65001)

转载作者：行者123 更新时间：2023-12-01 18:57:38

我已经在命令提示符和Windows Powershell中强制使用chcp 65001了一段时间，但是从SO和其他几个社区的问答文章来看，它是seems like a dangerous and inefficient solution。 Microsoft是否提供了chcp 65001的改进/完整替代方案，可以在不手动更改注册表的情况下将其永久保存？如果没有，将来是否有公开宣布的时间表或议程来支持Windows CLI中的UTF-8？

我个人一直在使用chcp 949来支持韩文字符，但是反斜杠\的奇怪显示以及在某些应用程序(例如Neovim)中的不正确/难以理解的显示，以及949不支持的朝鲜语字符似乎变得最近更多的问题。

最佳答案

笔记:

此答案显示了如何将Windows控制台中的字符编码切换为 UTF-8 (代码页65001)，以便诸如cmd.exe和PowerShell的 shell 在与外部(控制台)通信时正确地编码和解码字符(文本) )中的程序，以及cmd.exe中的文件I/O。[1]

相比之下，

如果您关注的是控制台窗口中 Unicode字符呈现的局限性的单独方面，请参阅this answer的中部和底部，在此还将讨论其他控制台(终端)应用程序。

Does Microsoft provide an improved / complete alternative to chcp 65001 that can be saved permanently without manual alteration of the Registry?

从(至少) Windows 10 (版本1903)开始，您可以选择 将系统语言环境(非Unicode程序的语言)设置为UTF-8 ，但是 功能在撰写本文时处于beta版 。
要激活它:

运行intl.cpl(在“控制面板”中打开区域设置)

请按照以下屏幕快照中的说明进行操作。

这将使所有将来的控制台窗口默认为UTF-8(chcp 65001)。

警告:

如果您使用的是Windows PowerShell，这还将使Get-Content和Set-Content (以及Windows PowerShell默认情况下的其他上下文，因此系统处于 Activity 状态的ANSI代码页)默认为UTF-8 (始终使用PowerShell Core(v6 +))做)。这意味着，在没有-Encoding参数的情况下，将误读经过ANSI编码的无BOM文件(这在历史上很常见)，并且使用Set-Content创建的文件将为UTF-8而不是ANSI编码。

[已在PowerShell 7.1中修复]至少在PowerShell 7.0上，基础.NET版本(.NET Core 3.1)中的错误导致PowerShell中的后续错误:意外地将UTF-8 BOM附加到发送到通过stdin进行外部处理(与$OutputEncoding的设置无关)，尤其是破坏了Start-Job -请参阅this GitHub issue。

并非所有字体都使用Unicode，因此请选择TT(TrueType)字体，但即使它们通常仅支持所有字符的子集，因此您可能必须尝试使用特定字体以查看是否关心的所有字符都已表示-有关详细信息，请参见this answer，它还讨论了具有更好的Unicode渲染支持的替代控制台(终端)应用程序。

正如eryksun所指出的那样，不“讲” UTF-8的旧版控制台应用程序将仅限于纯ASCII输入，并且在尝试输出(7位)ASCII范围以外的字符时将产生错误的输出。 (在过时的Windows 7及更低版本中，程序甚至可能崩溃)。
如果运行旧版控制台应用程序对您来说很重要，请参阅注释中eryksun的建议。

但是，对于Windows PowerShell，使用还是不够的:

您还必须另外将$OutputEncoding首选项变量也设置为UTF-8 :$OutputEncoding = [System.Text.UTF8Encoding]::new() [2];将命令添加到$PROFILE(仅限当前用户)或$PROFILE.AllUsersCurrentHost(所有用户)文件中是最简单的。

幸运的是，在PowerShell Core中不再需要此功能，它在内部始终默认为无BOM的UTF-8。

如果在您的环境中不能将系统语言环境设置为UTF-8，则使用启动命令代替:
注意:上述注意事项在这里同样适用。如果运行旧版控制台应用程序对您来说很重要，请参阅注释中eryksun的建议。

对于PowerShell (两个版本)，将以下行添加到$PROFILE(仅限当前用户)或$PROFILE.AllUsersCurrentHost(所有用户)文件中，等效于chcp 65001，并添加设置首选项变量$OutputEncoding以指示PowerShell将数据发送至通过UTF-8中的管道进行外部程序:

请注意，从PowerShell session 内部运行chcp 65001无效，因为.NET在启动时缓存控制台的输出编码，并且不知道以后对chcp进行的更改；此外，如上所述，Windows PowerShell要求设置$OutputEncoding-有关详细信息，请参见this answer。

$OutputEncoding = [console]::InputEncoding = [console]::OutputEncoding = New-Object System.Text.UTF8Encoding

例如，以下是一种快速方法，以编程方式将此行添加到$PROFILE中:

'$OutputEncoding = [console]::InputEncoding = [console]::OutputEncoding = New-Object System.Text.UTF8Encoding' + [Environment]::Newline + (Get-Content -Raw $PROFILE) | Set-Content -Encoding utf8 $PROFILE

对于cmd.exe ，通过注册表在键AutoRun(仅限当前用户)或HKEY_CURRENT_USER\Software\Microsoft\Command Processor(所有用户)的HKEY_LOCAL_MACHINE\Software\Microsoft\Command Processor值中定义自动运行命令:

例如，您可以使用PowerShell为您创建此值:

# Auto-execute `chcp 65001` whenever the current user opens a `cmd.exe` console
# window (including when running a batch file):
Set-ItemProperty 'HKCU:\Software\Microsoft\Command Processor' AutoRun 'chcp 65001 >NUL'

可选阅读:为什么Windows PowerShell ISE是一个较差的选择:
尽管ISE的确比控制台具有更好的Unicode渲染支持，但通常是一个差的选择:

首先，ISE已过时:它不支持PowerShell Core，将来所有的开发都会进行下去，而且它也不是跨平台的，这与两个PowerShell版本的新的首要IDE Visual Studio Code不同，后者已经使用了UTF对于PowerShell Core，默认情况下为-8，可以将其配置为Windows PowerShell。

ISE通常是一个用于开发脚本的环境，而不是用于在生产环境中运行它们的环境(如果您还为其他人编写脚本，则应假定它们将在控制台中运行)。值得注意的是，在运行脚本方面，ISE的行为在所有方面都不尽相同。

正如eryksun所指出的，ISE不支持运行交互式外部控制台程序，即需要用户输入的程序:

The problem is that it hides the console and redirects the process output (but not input) to a pipe. Most console applications switch to full buffering when a file is a pipe. Also, interactive applications require reading from stdin, which isn't possible from a hidden console window. (It can be unhidden via ShowWindow, but a separate window for input is clunky.)

如果您愿意遵守此限制，那么将 Activity 代码页切换到65001(UTF-8)以便与外部程序进行正确的通信需要一种尴尬的解决方法:

您必须首先通过从内置控制台运行任何外部程序来强制创建隐藏的控制台窗口，例如chcp-您将看到控制台窗口短暂闪烁。

只有这样，您才能将[console]::OutputEncoding(和$OutputEncoding)设置为UTF-8，如上所示(如果尚未创建隐藏控制台，则将获得handle is invalid error)。

[1]在PowerShell中，如果您从不调用外部程序，则不必担心系统区域设置( Activity 代码页):PowerShell本地命令和.NET调用始终通过UTF-16字符串(本地.NET字符串)进行通信，在文件I/O上应用独立于系统区域设置的默认编码。同样，由于Windows API函数的Unicode版本用于向控制台打印和从控制台读取，因此非ASCII字符始终可以正确打印(在控制台的呈现限制内)。
相比之下，在 cmd.exe中，系统区域设置对于文件I/O也很重要(特别是对于批处理文件源代码采用何种编码)，而不仅仅是与外部程序进行通信，例如在 for /f循环中读取程序输出时。
[2]在无法使用静态 ::new()方法的PowerShell v4-中，使用 $OutputEncoding = (New-Object System.Text.UTF8Encoding).psobject.BaseObject。有关为什么需要 .psobject.BaseObject部分的信息，请参见 GitHub issue #5763。

关于windows - 在命令提示符/Windows Powershell(Windows 10)中使用UTF-8编码(CHCP 65001)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57131654/

文章推荐： Javascript AJAX 调用 SpringBoot Controller 并获取 JSON 响应

文章推荐： java - Lucene TermQuery 和 QueryParser

文章推荐： r - r中使用mosaic合并多个geotiff

文章推荐： file - 如何使用 Gulp 向文件添加一行文本

unicode - UTF-8、UTF-16 和 UTF-32
UTF-8、UTF-16 和 UTF-32 之间有何区别？据我所知，它们都将存储 Unicode，并且每个都使用不同数量的字节来表示字符。选择其中之一是否有优势？最佳答案当 ASCII 字符代表
unicode - UTF-8、UTF-16 和 UTF-32 可以存储的字符数是否不同？
好的。我知道这看起来像典型的“他为什么不直接用谷歌搜索或去 www.unicode.org 查一下？”问题，但对于这样一个简单的问题，在检查了两个来源后，我仍然无法回答。我很确定这三种编码系统都支持
utf-8 - 是否存在可以用 UTF-16 编码但不能用 UTF-8 编码的字符？
是否存在可以用 UTF-16 编码但不能用 UTF-8 编码的字符最佳答案没有。 UTF-* 是可以对全范围 Unicode 字符进行编码的编码。编码之间的差异在于每个字符使用多少字节。关于u
utf-8 - 是否存在可以用 UTF-16 编码但不能用 UTF-8 编码的字符？
是否存在可以用 UTF-16 编码但不能用 UTF-8 编码的字符最佳答案没有。 UTF-* 是可以对全范围 Unicode 字符进行编码的编码。编码之间的差异在于每个字符使用多少字节。关于u
c - 在UTF-16、UTF-16BE、UTF-16LE中，UTF-16的字节序是计算机的字节顺序吗？
UTF-16 是一种双字节字符编码。交换两个字节的地址将产生 UTF-16BE 和 UTF-16LE。但我发现在 Ubuntu gedit 文本编辑器中存在名称 UTF-16 编码，以及 UTF-1
utf-8 - 使用 ICU 库的 UTF-16 到 UTF-8
我想将 UTF-16 字符串转换为 UTF-8。我通过 Unicode 发现了 ICU 库。我在转换时遇到问题，因为默认设置是 UTF-16。我试过使用转换器: UErrorCode myError
utf-8 - 为什么 USB 对字符串使用 UTF-16(为什么不使用 UTF-8)
UTF-16 需要 2 个字节，UTF-8 需要 1 个字节。而USB是面向8bit的，UTF-8更自然。 UTF-8 向后兼容 ASCII，而 UTF-16 则不然。 UTF-16 需要 2 个字
javascript - UTF-8 与 UTF-16 和 UTF-32 转换混淆
我对将 unicode 字符转换为十六进制值有点困惑。我正在使用这个网站获取字符的十六进制值。 ( https://www.branah.com/unicode-converter ) 如果我输入“
utf-8 - UTF-8编码的文件大小？
我已经用UTF-8编码创建了一个文件，但是我不了解其在磁盘上占用的大小的规则。这是我的完整研究: 首先，我创建了一个带有印地语字母“'”的文件，Windows 7上的文件大小为 8个字节。现在带有两
utf-8 - UTF-8中的字符串到字节数组？
如何将WideString(或其他长字符串)转换为UTF-8中的字节数组？最佳答案这样的功能将满足您的需求: function UTF8Bytes(const s: UTF8String): TB
utf-8 - UTF-8中的代理字符是什么？
我有一个奇怪的验证程序，用于验证utf-8字符串是否是有效的主机名(PHP中的Zend Framework主机名valdiator)。它允许IDN(国际化域名)。它将比较每个子域与由其十六进制字节表示
unicode - utf-8 null 和 utf-16/utf-32 null 一样吗？
在 utf16 和 utf32 中，一个字节的零是否意味着空？就像在 utf8 中一样，还是我们需要 2 个和 4 个字节的零来相应地在 utf16 和 utf32 中创建 null？最佳答案在
mysql - "AddDefaultCharset utf-8"指定的 Apache utf-8 字符集是否是完整的 utf-8？
这是基于我的观察，对于 mysql，默认字符集 utf8 有点误导，它不支持完整的 Unicode，因为它无法存储四字节 UTF-8 编码的字符。它实际上是 utf8mb4 字符集，它是完整的 Uni
c++ - 在 C++ 内部使用 UTF-8、UTF-16 和 UTF-32？
我只有处理 ASCII(单字节字符)的经验，并且阅读了很多关于人们如何以不同方式处理 Unicode 的帖子，这些帖子提出了他们自己的一系列问题。此时我对 Unicode 的了解非常有限，我读到过U
c++ - C++ 是否支持 UTF-8、UTF-16 和 UTF-32 以外的字符编码之间的转换？
我明白 std::codecvt在 C++11 中执行 UTF-16 和 UTF-8 之间的转换，并且 std::codecvt执行 UTF-32 和 UTF-8 之间的转换。是否可以在 UTF-8
utf-8 - Babel 有类似 trivial-utf-8 :write-utf-8-bytes? 的功能吗
我正在编写一个 HTTP 服务器并使用 trivial-utf-8:write-utf-8-bytes 来响应请求。我听说Babel就像trivial-utf-8但效率更高，所以我想试一试。搜索了一段
c# - UTF-8 或 UTF-16 或 UTF-32 或 UCS-2
我正在设计一个新的 CMS，但想要设计它来满足我 future 的所有需求，比如多语言内容，所以我认为 Unicode (UTF-8) 是最好的解决方案但是通过一些搜索我得到了这篇文章 http:/
.net - 如何将 UTF-8 编码为 UTF-16 的 xml 字符串转换为 UTF-16？
例如，假设我在字符串中有以下 xml: 如果我尝试将其插入到带有 Xml 列的 SQL Server 2005 数据库表中，我将收到以下错误(我使用的是 EF 4.1，但我认为这无关紧要): XM
python - "utf-8-sig"是否适契约(Contract)时解码 UTF-8 和 UTF-8 BOM？
我正在使用 Python CSV 库读取两个 CSV 文件。一种使用 UTF-8-BOM 编码，另一种使用 UTF-8 编码。在我的实践中，我发现使用“utf-8-sig”作为编码类型可以读取这两个
php - mysql_real_escape_string 是否容易受到无效的 UTF-8 攻击，例如超长的 UTF-8 或格式错误的 UTF-8 序列？
假设我的数据库设置如下以使用 utf-8(mysql 中的完整 4mb 版本) mysql_query("SET CHARACTER SET utf8mb4"); mysql_query("SET N

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

windows - 在命令提示符/Windows Powershell(Windows 10)中使用UTF-8编码(CHCP 65001)