perl - 关于在 Perl 中将混合编码文件转换为 UTF8 的问题-6ren

perl - 关于在 Perl 中将混合编码文件转换为 UTF8 的问题

转载作者：行者123 更新时间：2023-12-04 12:49:22

我正在将我们大学中文系基于 DOS 的古老图书馆程序生成的文件转换为更有用和更易于访问的文件。

我正在处理的问题之一是导出的文本文件(大小约为 80MB)采用混合编码。我在 Windows 上。

德语元音变音和其他更高的 ASCII 字符在 cp1252 中编码，我认为在 GB18030 中编码为 CJK 字符。由于“重叠”编码，我不能只是将整个文件拖到 Word 或其他东西中并让它进行转换，因为我会得到这样的东西:

来源:

+Autor:
-Yan, Lianke / ÑÖÁ¬¿Æ      # encoded Chinese characters
+Co-Autor:
-Min, Jie / (šbers.)       # encoded German U-umlaut (Ü)

结果:

+Autor:
-Yan, Lianke / 阎连科       # good
+Co-Autor:
-Min, Jie / (歜ers.)       # bad... (should be: "Übers.")

所以我写了一个带有几个子程序的脚本，可以分几个步骤转换非 ASCII 字符。它执行以下操作(除其他外):

用字母数字代码替换一些高阶 ASCII 字符(š、á 等)(不太可能自然出现在文件的其他任何地方)。例如:-Min, Jie / (šbers.) -> -Min, Jie / (uumlautgrossbers.)注意:我手工做了“转换表”，所以我只考虑了我的文档中实际出现的特殊字符。因此转换并不完全完成，但在我的情况下产生了足够的结果，因为我们的书主要是德文、英文和中文，只有极少数语言是意大利文、西类牙文、法文等，几乎没有捷克文等。

替换 á, £, ¢, ¡, í仅当它们前面或后面没有高 ASCII 范围内的另一个字符时才使用字母数字代码 \x80-\xFF . (这些是 ß, ú, ó, í 和“small nordic o with cross-stroke ”的 cp1252 编码版本，并且出现在 cp1252 和 GB18030 编码的字符串中。)

读入整个文件并将其从GB18030转换为UTF8，从而将编码的汉字转换为真正的汉字。

将字母数字代码转换回对应的 Unicode。

虽然脚本大部分工作，但出现以下问题:

转换原来的 80MB 文件后，Notepad++ 仍然认为它是一个 ANSI 文件并显示它。我需要按“编码-> UTF-8 编码”才能正确显示。

我想知道的是:

一般来说，是否有更好的方法将混合编码文件转换为 UTF-8？

如果没有，我应该使用 use utf8这样我就可以在 codes2char 中直接输入字符而不是它们的十六进制表示子程序？

文件开头的 BOM 会解决 NP++ 最初将其显示为 ANSI 文件的问题吗？如果是这样，我应该如何修改我的脚本以便输出文件有一个 BOM？

转换后，我可能想调用更多子程序(例如，将整个文件转换为 CSV 或 ODS 格式)。我是否需要继续使用 codes2char 中的开场陈述？子程序？

代码由几个在最后调用的子程序组成:

!perl -w
use strict; 
use warnings;
use Encode qw(decode encode); 
use Encode::HanExtra;

our $input = "export.txt";
our $output = "export2.txt";

sub switch_var {                # switch Input and Output file between steps
    ($input, $output) = ($output, $input);
}

sub specialchars2codes {
open our $in, "<$input" or die "$!\n"; 
open our $out, ">$output" or die "$!\n"; 

while( <$in> )  {   
    ## replace higher ASCII characters such as a-umlaut etc. with codes.
    s#\x94#oumlautklein#g;
    s#\x84#aumlautklein#g;
    s#\x81#uumlautklein#g;
    ## ... and some more. (ö, Ö, ä, Ä, Ü, ü, ê, è, é, É, â, á, à, ì, î, 
    ## û, ù, ô, ò, ç, ï, a°, e-umlaut and ñ in total.)

    ## replace problematic special characters (ß, ú, ó, í, ø, ') with codes.
    s#(?<![\x80-\xFF])\xE1(?![\x80-\xFF])#eszett#g;
    s#(?<![\x80-\xFF])\xA3(?![\x80-\xFF])#uaccentaiguklein#g;
    s#(?<![\x80-\xFF])\xA2(?![\x80-\xFF])#oaccentaiguklein#g;
    s#(?<![\x80-\xFF])\xA1(?![\x80-\xFF])#iaccentaiguklein#g;
    s#(?<![\x80-\xFF])\xED(?![\x80-\xFF])#nordischesoklein#g;

    print $out $_;
    }   
close $out;
close $in;
}

sub convert2unicode {

open(our $in,  "< :encoding(GB18030)", $input)  or die "$!\n";
open(our $out, "> :encoding(UTF-8)",  $output)  or die "$!\n";

print "Convert ASCII to UTF-8\n\n";

while (<$in>) {         
        print $out $_;      
}

close $in;
close $out;
}

sub codes2char {

open(our $in,  "< :encoding(UTF-8)", $input)    or die "$!\n";
open(our $out, "> :encoding(UTF-8)", $output)   or die "$!\n";

print "replace Codes with original characters.\n";


    while (<$in>) {
        s#lidosoumlautklein#\xF6#g;
        s#lidosaumlautklein#\xE4#g;
        s#lidosuumlautklein#\xFC#g;
        ## ... and some more.
        s#eszett#\xDF#g;
        s#uaccentaiguklein#\xFA#g;
        s#oaccentaiguklein#\xF3#g;
        s#iaccentaiguklein#\xED#g;
        s#nordischesoklein#\xF8#g;

        print  $out $_;
    }
close($in)   or die "can't close $input: $!";
close($out)  or die "can't close $output: $!";
}

##################
## Main program ##
##################

&specialchars2codes;
&switch_var;
&convert2unicode;
&switch_var;
&codes2char;

哇，好长啊。我希望它不会太复杂

编辑 :

这是上面示例字符串的十六进制转储:

01A36596                                                        2B 41                    +A
01A365A9   75 74 6F 72 3A 0D 0A 2D  59 61 6E 2C 20 4C 69 61  6E 6B 65   utor:  -Yan, Lianke
01A365BC   20 2F 20 D1 D6 C1 AC BF  C6 0D 0A 2B 43 6F 2D 41  75 74 6F    / ÑÖÁ¬¿Æ  +Co-Auto
01A365CF   72 3A 0D 0A 2D 4D 69 6E  2C 20 4A 69 65 20 2F 20  28 9A 62   r:  -Min, Jie / (šb
01A365E2   65 72 73 2E 29 0D 0A                                         ers.)

和另外两个来说明:

1.

000036B3                                                     2D 52 75                   -Ru
000036C6   E1 6C 61 6E 64 0D 0A                                         áland

015FE030            2B 54 69 74 65  6C 3A 0D 0A 2D 57 65 6E  72 6F 75      +Titel:  -Wenrou
015FE043   64 75 6E 68 6F 75 20 20  CE C2 C8 E1 B6 D8 BA F1  20 28 47   dunhou  ÎÂÈá¶Øºñ (G
015FE056   65 6E 74 6C 65 6E 65 73  73 20 61 6E 64 20 4B 69  6E 64 6E   entleness and Kindn
015FE069   65 73 73 29 2E 0D 0A                                         ess).

在这两种情况下，都有十六进制值 E1。在第一种情况下，它代表德语的尖锐 s (ß, "Rußland"="Russia")，在第二种情况下，它是多字节 CJK 字符柔的一部分(读作:“rou”)。

在库程序中，汉字是通过一个额外的程序输入和显示的作为角色，而让其他一切都独自一人。德语变音等由库程序本身处理。

我不完全理解这是如何工作的，即程序如何知道 HexE1 是否被视为单个字符 á并因此根据 codepage X 进行转换当它是多字节字符的一部分并因此根据 codepage Y 进行转换时

我发现的最接近的近似值是，如果特殊字符前后有其他特殊字符，则它很可能是中文字符串的一部分。 (例如 ÎÂÈá¶Øºñ )

最佳答案

如果混合编码使得每行/记录/字段/任何内容都采用一致的编码，则您可以单独读取和转换每行/记录/字段/任何内容。但这听起来不像这里的情况。

不会是一个坏主意。

UTF-8 通常不使用 BOM，但如果您真的想尝试输出字符 U+FEFF(在 UTF-8 中，这是 3 个字节 ef bb bf )。如果您能弄清楚为什么 NP++ 错误地检测到文件，那就更好了。

在读取 UTF-8 编码的文件时，使用 UTF-8 输入层打开它是个好主意。如果您愿意，<:utf8是较短的等效于 < :encoding(UTF-8) .

至于原始困惑是如何工作的，“附加程序”似乎只是将任何看起来像汉字的东西转换成中文，而将其他任何东西都保留下来(标准驱动程序然后使用欧洲编码显示)，而“库程序”只是输出它收到的任何代码。因此，一种更直接的转换文件的方法可能是镜像:使用 :encoding(latin-1) 读入文件。 (或其他)然后替换中文字符(例如 s/\xc8\xe1/柔/ )。

关于perl - 关于在 Perl 中将混合编码文件转换为 UTF8 的问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6897982/

文章推荐： tinymce - 使用 TinyMCE 时防止 XSS

文章推荐： silverlight - Silverlight 5 是否支持鼠标滚轮和 Apple 触控板？

文章推荐： ImageMagick 转换 gif 有透明度问题

文章推荐： graphics - 如何画一个徒手画的椭圆或圆？

url - 文件 :/, 文件 ://, 文件:///和有什么区别
今天我在一个 Java 应用程序中看到了几种不同的加载文件的方法。文件:/ 文件:// 文件:/// 这三个 URL 开头有什么区别？使用它们的首选方式是什么？非常感谢斯特凡最佳答案 file
EDI X12 文件 - 文件
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
c# - 从 javascript 文件(.js 文件)调用 C# 函数(.cs 文件)
我有一个 javascript 文件，并且在该方法中有一个“测试”方法，我喜欢调用 C# 函数。 c# 函数与 javascript 文件不在同一文件中。它位于 .cs 文件中。那么我该如何管理 j
java - 文件.canWrite();文件.canRead();文件.canExceute();尽管我的文件/目录没有访问权限，但始终返回 true
需要检查我使用的文件/目录的权限 //filePath = path of file/directory access denied by user ( in windows ) File fil
intellij-idea - 将外部 java 文件(*.java 文件，而不是 jar 文件)添加到 Intellij 中的项目
我在一个目录中有很多 java 文件，我想在我的 Intellij 项目中使用它。但是我不想每次开始一个新项目时都将 java 文件复制到我的项目中。我知道我可以在 Visual Studio 和
linux - 我不小心复制了一个 bash 文件，并将其替换为 Linux Mint 中的 .bashrc 文件。我该如何检索 .bashrc 文件？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
php - 在 Twig 文件 B 中渲染 Twig 文件 A 但仅在查看 Twig 文件 C 时？
我有 3 个组件的 Twig 文件: 文件 1: {# content-here #} 文件 2: {{ title-here }} {# content-here #}
linux - 如何在 Linux 中将 .c 文件转换为 .so 文件？我有 .c 文件。并需要 Linux 命令将其转换为 .so 文件
我得到了 mod_ldap.c 和 mod_authnz_ldap.c 文件。我需要使用 Linux 命令的 mod_ldap.so 和 mod_authnz_ldap.so 文件。最佳答案从 c
javascript - 文件 .htc 文件 - 我需要网络服务器吗？
我想使用PIE在我的项目中使用 IE7。但是我不明白的是，我只能在网络服务器上使用 .htc 文件吗？我可以在没有网络服务器的情况下通过浏览器加载的本地页面中使用它吗？我在 PIE 的文档中看到
Java docker 文件。构建并测试还是只运行 jar 文件？
我在 CI 管道中考虑这一点，我应该首先构建和测试我的应用程序，结果应该是一个 docker 镜像。我想知道使用构建环境在构建服务器上构建然后运行测试是否更常见。也许为此使用构建脚本。最后只需将 j
C++ 文件 I/O 我无法读取 .dat 文件
using namespace std; struct WebSites { string siteName; int rank; string getSiteName() {
c++ - 尽管链接了库文件夹中的 .so 文件，但缺少 .h 文件
我是 Linux 新手，目前正在尝试使用 ginkgo USB-CAN 接口(interface) 的 API 编程功能。为了使用 C++ 对 API 进行编程，他们提供了库文件，其中包含三个带有 .
C 文件 I/O，使用 TXT 文件
我刚学C语言，在实现一个程序时遇到了问题将 test.txt 文件作为程序的输入。 test.txt 文件的内容是: 1 30 30 40 50 60 2 40 30 50 60 60 3 30 20
networking - 如何连接两个 tcpdump 文件(pcap 文件)
如何连接两个tcpdump文件，使一个流量在文件中出现一个接一个？具体来说，我想“乘以”一个 tcpdump 文件，这样所有的 session 将一个接一个地按顺序重复几次。最佳答案 mergeca
video - 修复损坏的 .MP4 文件。这可能是一个 3gp 文件
我有一个名为 input.MP4 的文件，它已损坏。它来自闭路电视摄像机。我什么都试过了，ffmpeg , VLC 转换，没有运气。但是，我使用了 mediainfo和 exiftool并提取以下信息
android - 如何提取 ISO 文件，然后将其重新打包成可用的 ISO 文件？
我想做什么？我想提取 ISO 文件并编辑其中的文件，然后将其重新打包回 ISO 文件。 (正如你已经读过的) 我为什么要这样做？我想开始修改 PSP ISO，为此我必须使用游戏资源、 Assets
compression - 给定一个解压缩的 gzip 文件，有没有办法重新创建准确的原始 gzip 文件？
给定一个 gzip 文件 Z，如果我将其解压缩为 Z'，有什么办法可以重新压缩它以恢复完全相同的 gzip 文件 Z？在粗略阅读了 DEFLATE 格式后，我猜不会，因为任何给定的文件都可能在 DEF
sql-server - 带附件的数据库电子邮件(excel 文件/pdf 文件)？
我必须从数据库向我的邮件 ID 发送一封带有附件的邮件。 EXEC msdb.dbo.sp_send_dbmail @profile_name = 'Adventure Works Admin
audio - 如果我有 CUE 文件，如何拆分 M4B 文件？
我有一个大的 M4B 文件和一个 CUE 文件。我想将其拆分为多个 M4B 文件，或将其拆分为多个 MP3 文件(以前首选)。我想在命令行中执行此操作(OS X，但如果需要可以使用 Linux)，而
ios - 是否有编译器标志以便链接器警告我这个？ .h 文件，没有 .m 文件
快速提问。我有一个没有实现文件的类的项目。然后在 AppDelegate 我有: #import "AppDelegate.h" #import "SomeClass.h" @interface A

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

perl - 关于在 Perl 中将混合编码文件转换为 UTF8 的问题