delphi - TFile.ReadAllText 与 TEncoding.UTF8 省略前 3 个字符-6ren

delphi - TFile.ReadAllText 与 TEncoding.UTF8 省略前 3 个字符

转载作者：行者123 更新时间：2023-12-03 14:52:28

32

4

我有一个以此行开头的 UTF-8 文本文件:

<HEAD><META name=GENERATOR content="MSHTML 10.00.9200.16521"><body>

当我使用 TFile.ReadAllText 和 TEncoding.UTF8 读取此文件时:

MyStr := TFile.ReadAllText(ThisFileNamePath, TEncoding.UTF8);

然后文本文件的前 3 个字符被省略，因此 MyStr 结果为:

'AD><META name=GENERATOR content="MSHTML 10.00.9200.16521"><body>...'

但是，当我使用 TFile.ReadAllText 读取此文件而不使用 TEncoding.UTF8 时:

MyStr := TFile.ReadAllText(ThisFileNamePath);

然后文件被完整且正确地读取:

<HEAD><META name=GENERATOR content="MSHTML 10.00.9200.16521"><body>...

TFile.ReadAllText 有错误吗？

最佳答案

前三个字节被跳过，因为 RTL 代码假定文件包含 UTF-8 BOM。显然你的文件没有。

TUTF8Encoding 类实现指定 UTF-8 BOM 的 GetPreamble 方法。 ReadAllBytes 会跳过您传递的编码指定的前导码。

一个简单的解决方案是将文件读入字节数组，然后使用 TEncoding.UTF8.GetString 将其解码为字符串。

var
  Bytes: TBytes;
  Str: string;
....
Bytes := TFile.ReadAllBytes(FileName);
Str := TEncoding.UTF8.GetString(Bytes);

更全面的替代方案是创建一个忽略 UTF-8 BOM 的 TEncoding 实例。

type
  TUTF8EncodingWithoutBOM = class(TUTF8Encoding)
  public
    function Clone: TEncoding; override;
    function GetPreamble: TBytes; override;
  end;

function TUTF8EncodingWithoutBOM.Clone: TEncoding;
begin
  Result := TUTF8EncodingWithoutBOM.Create;
end;

function TUTF8EncodingWithoutBOM.GetPreamble: TBytes;
begin
  Result := nil;
end;

实例化其中一个(每个进程只需要一个实例)并将其传递给 TFile.ReadAllText。

使用 TUTF8EncodingWithoutBOM 的单例实例的优点是您可以在需要 TEncoding 的任何地方使用它。

关于delphi - TFile.ReadAllText 与 TEncoding.UTF8 省略前 3 个字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17133430/

32

4

0

文章推荐： delphi - FileSize，与这个程序有什么区别以及什么更好用？

文章推荐： Delphi 类帮助器 RTTI GetMethod

文章推荐： Delphi - 使用泛型的接口(interface)继承

delphi - 即使使用 TFile 标记为共享读取，也无法再次打开文件
鉴于此代码: FN := 'c:\temp\test_file.log'; AFile := TFile.Open(FN, TFileMode.fmOpenOrCreate, TFileAcc
c++ - 如何防止将 TTree 写入 TFile
在我的 ROOT 脚本中，我创建了一个 TTree，但我不想保存它。确保 TTree 永远不会保存到 TFile 的最佳方法是什么？我曾想过为每棵我创建但不需要保存的树创建一个TFile，但感觉应该
python - 通过 rootpy 存储对象 TFile 的最佳方式
我正在尝试通过 rootpy 将 python 类(或仅成员)存储在 ROOT 文件(CERN、TFile)中。我可以使用 Tree 和 TreeModel 轻松地做到这一点，但这只适用于基本类型，
delphi - TFile.ReadAllText 与 TEncoding.UTF8 省略前 3 个字符
我有一个以此行开头的 UTF-8 文本文件: 当我使用 TFile.ReadAllText 和 TEncoding.UTF8 读取此文件时: MyStr := TFile.ReadAllText(T
java - 如何在 Java 中使用 TrueZip API(不解压)获取 TFile 的字节
如何读取 zip 存档内的二进制文件(获取字节数组)？我正在使用TrueZip 。我的例子: import de.schlichtherle.truezip.file.TFile; import j

首页

博学

6Ren·AI

商城

delphi - TFile.ReadAllText 与 TEncoding.UTF8 省略前 3 个字符