gpt4 book ai didi

utf-8 - 大文件的编码转换

转载 作者:行者123 更新时间:2023-12-05 03:15:55 24 4
gpt4 key购买 nike

我面对一个大文件(约 18 GB),从 SQL Server 导出为 Unicode 文本文件,这意味着它的编码是 UTF-16(小端)。该文件现在存储在运行 Linux 的计算机中,但我还没有找到将其转换为 UTF-8 的方法。

起初我尝试使用 iconv,但文件太大了。我的下一个方法是使用拆分并一个一个地转换文件,但这也不起作用 - 转换过程中出现了很多错误。

那么,关于如何将其转换为 UTF-8 有什么想法吗?任何帮助将不胜感激。

最佳答案

由于您使用的是 SQL 服务器,我假设您的平台是 Windows。在最简单的情况下,您可以快速编写一个肮脏的 .NET 应用程序,它逐行读取源代码并写入转换后的文件。像这样:

using System;
using System.IO;
using System.Text;

namespace UTFConv {
class Program {
static void Main(string[] args) {
try {
Encoding encSrc = Encoding.Unicode;
Encoding encDst = Encoding.UTF8;
uint lines = 0;
using (StreamReader src = new StreamReader(args[0], encSrc)) {
using (StreamWriter dest = new StreamWriter(args[1], false, encDst)) {
string ln;
while ((ln = src.ReadLine()) != null) {
lines++;
dest.WriteLine(ln);
}
}
}
Console.WriteLine("Converted {0} lines", lines);
} catch (Exception x) {
Console.WriteLine("Problem converting the file: {0}", x.Message);
}
}
}
}

只需打开 Visual Studio,启动一个新的 C# 控制台应用程序项目,将此代码粘贴到其中,编译并从命令行运行它。第一个参数是你的源文件,第二个参数是你的目标文件。应该可以。

关于utf-8 - 大文件的编码转换,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6628081/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com