c# - 使用 StreamReader 读取编码标识符-6ren

c# - 使用 StreamReader 读取编码标识符

转载作者：太空宇宙更新时间：2023-11-03 14:38:36

25

4

我正在读一本 C# 书，在关于流的章节中它说:

If you explicitly specify an encoding, StreamWriter will, by default,write a prefix to the start of the stream to identify the encoding.This is usually undesirable and you can prevent it by constructing theencoding as follows:

var encoding = new UTF8Encoding (encoderShouldEmitUTF8Identifier:false, throwOnInvalidBytes:true);

我想看看标识符的实际情况，所以我想出了这段代码:

            using (FileStream fs = File.Create ("test.txt"))
            using (TextWriter writer = new StreamWriter (fs,new UTF8Encoding(true,false)))
            {
                writer.WriteLine ("Line1");
            }

            using (FileStream fs = File.OpenRead ("test.txt"))
            using (TextReader reader = new StreamReader (fs))
            {
                for (int b; (b = reader.Read()) > -1;)
                    Console.WriteLine (b + " " + (char)b);  // identifier not printed
            }

令我不满意的是，没有打印标识符。如何读取标识符？我错过了什么吗？

最佳答案

默认情况下，.NET 会非常努力地避免编码错误。如果你想看到字节顺序标记，也就是“序言”或“BOM”，你需要非常明确地使用对象来禁用自动行为。这意味着您需要使用不包含前导码的编码，并且您需要告诉 StreamReader 不要尝试检测编码。

这是将显示 BOM 的原始代码的变体:

using (MemoryStream stream = new MemoryStream())
{
    Encoding encoding = new UTF8Encoding(encoderShouldEmitUTF8Identifier: true);

    using (TextWriter writer = new StreamWriter(stream, encoding, bufferSize: 8192, leaveOpen: true))
    {
        writer.WriteLine("Line1");
    }

    stream.Position = 0;
    encoding = new UTF8Encoding(encoderShouldEmitUTF8Identifier: false);

    using (TextReader reader = new StreamReader(stream, encoding, detectEncodingFromByteOrderMarks: false))
    {
        for (int b; (b = reader.Read()) > -1;)
            Console.WriteLine(b + " " + (char)b);  // identifier not printed
    }
}

这里，encoderShouldEmitUTF8Identifier: true 被传递给用于创建流的编码器，以便在创建流时写入 BOM，但是 encoderShouldEmitUTF8Identifier: false 是传递给用于读取流的编码器，以便在回读流时将 BOM 视为普通字符。 detectEncodingFromByteOrderMarks: false 参数也传递给 StreamReader 构造函数，因此它不会消耗 BOM 本身。

这会产生这个输出，就像你想要的那样:

65279 ?76 L105 i110 n101 e49 11310

值得一提的是，通常不鼓励使用 BOM 作为识别 UTF8 编码的形式。 BOM 的存在主要是为了区分 UTF16 的两种变体(即 UTF16LE 和 UTF16BE，分别为“小端”和“大端”)。它也被用作识别 UTF8 的一种方式，但实际上最好只知道编码是什么(这就是为什么像 XML 和 HTML 之类的东西在文件的第一部分明确地将编码声明为 ASCII，而 MIME 的charset 属性存在)。单个字符远不如其他更明确的方式可靠。

关于c# - 使用 StreamReader 读取编码标识符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58896085/

25

4

0

文章推荐： c# - 如何统一检查两个 tilemap 之间的碰撞？

文章推荐： c# - 统一: Create a texture from Terrain

c# - StreamReader.Read 和 StreamReader.ReadBlock 之间的区别
文档只是说 ReadBlock 是 “Read 的阻塞版本” 但这意味着什么？之前有人问过这个问题，嗯？ http://www.pcreview.co.uk/forums/thread-138578
c# - StreamReader(string filepath) 和 StreamReader(Stream _stream) 的区别
我对 StreamReader 类的两个不同构造函数有点困惑，即 1.StreamReader(流) 我知道它需要流字节作为输入，但相应的输出是相同的。这是我使用 StreamReader(Stre
c# - StreamReader 读取包含的最后一行
我试图从一个文本文件中读取，该文本文件在写入时有多个输出，但是当我想从我已经输出内容的文本文件中读取时，我想选择最后一个条目(记住每个条目当写作有 5 行时，我只想要包含“密文:”)的行但是它正在读
c# - StreamReader.EndOfStream产生IOException
我正在开发一个接受TCP连接并读取数据的应用程序，直到读取标记，然后将该数据写入文件系统。我不想断开连接，我想让客户端发送数据来做到这一点，以便他们可以在一个连接中发送多个文件。我在外部循环中使用了
C# StreamReader 可以检查当前行号吗？
我尝试制作一个脚本，该脚本可以逐行读取 TXT 文件，并根据里面的内容更改标签。有没有办法检查正在读取哪一行？最佳答案此示例使用 StreamReader 类的 ReadLine 方法将文本文件的
c# - StreamReader 太贪心了
我正在尝试处理文本文件的一部分，并使用 UploadFromStream 将文本文件的其余部分写入云 blob。问题在于 StreamReader 似乎从底层流中获取了太多内容，因此后续写入不会执行任
java - 非缓冲 StreamReader？
某处是否有非缓冲流读取器实现？我通过以下方式创建了我的流 FileInputStream inputStream = new FileInputStream(inputFilename); Coun
string - StreamReader 的行到字符串数组
我想要一个 string[]分配了一个 StreamReader .喜欢: try{ StreamReader sr = new StreamReader("a.txt"); do{
c# - StreamReader 行和行定界符
我想弄清楚如何标记文本文件的 StreamReader。我已经能够将这些行分开，但现在我正试图弄清楚如何通过制表符分隔符来分解这些行。这是我目前所拥有的。 string readContents; u
C# 非常慢的 StreamReader
我正在使用我编写的一些不是最佳的代码...:-| 我有以下代码: string fmtLine = ""; string[] splitedFmtLine;
c# - StreamReader 因目录错误而失败？
我正在尝试从我的 Web 应用程序的 App_Data 文件夹加载文件: KezMenu kmenu = new KezMenu("~/App_Data/Menu.xml"); 但出于某种原因，这
c# - StreamReader 返回另一个字符
我正在尝试使用接收 FileStream 的 StreamReader 读取文件的内容。该文件内部有一些空格(字符 32)，StreamReader 将它们读取为 0(字符 48)。屏幕截图显示了 F
c# - StreamReader 路径自动更改
我有一些奇怪的问题(对我来说)。有一个应用程序是 Windows 窗体应用程序“firstapp.exe”。还有另一个应用程序也是 Windows 窗体应用程序“launcher.exe”。并且有一
c# - StreamReader 在同时读取非常大的文件时性能不佳
我需要在 C# 应用程序上同时逐行读取四个非常大 (>2 Gb) 的文件。我使用了四种不同的 StreamReader 对象及其 ReadLine() 方法。同时从四个文件中读取行时，性能会受到严重
c# - StreamReader 到文件？
我有一个包装在 System.IO.StreamReader 中的输入流...我希望将流的内容写入文件(即 StreamWriter)。输入流的长度未知。长度可以是几个字节，也可以是千兆字节。怎么
c# - 带有制表符分隔文本文件的 StreamReader
我对这篇文章有类似的要求... Populate Gridview at runtime using textfile 我想用 StreamReader 读取文本文件并用文件中的数据填充 DataTa
c# - Streamreader 和外来字符
我应该使用哪种编码来读取 æ、Ø、å、ä、ö、ü 等？最佳答案您应该使用原始数据的任何编码。你从哪里获取数据，你有关于它的编码的信息吗？如果您尝试使用错误的编码来读取它，您将得到错误的答案:即使您
c# - StreamReader 中的子字符串错误
你好，我在为 Unity3D 编写编辑器时遇到了问题，我遇到了一个问题，我正在从具有常规字符串的 .txt 文件中读取行，然后在每个常规字符串下方读取文件扩展名(代表扩展名的类别) ).当我尝试在分配
c# - StreamReader 使用数组列表或数组
这是我的代码: StreamReader reader = new StreamReader("war.txt"); string input = null; while ((input = read
c# - StreamReader NullReferenceException
我正在制作一个函数，它将从 StreamReader 中获取行数，不包括注释(以“//”开头的行)和新行。这是我的代码: private int GetPatchCount(StreamReader

首页

博学

6Ren·AI

商城

c# - 使用 StreamReader 读取编码标识符