gpt4 book ai didi

emacs - 解码 90 年代的韩文文本文件

转载 作者:行者123 更新时间:2023-12-04 14:48:12 25 4
gpt4 key购买 nike

我有一组 90 年代中期创建的 .html 文件,其中包含大量韩文文本。 HTML 缺少字符集元数据,因此当然所有韩语文本现在都无法正确呈现。以下示例都将使用相同的文本摘录。

在 Coda 和 Text Wrangler 等文本编辑器中,文本显示为

╙╦ ╝№бя└К ▓щ╥НВь╕цль▒Ф ▓щ╥НВь╕цль▒Ф



在 < head > 中缺少字符集元数据的情况下,浏览器将其呈现为:

ÓË ¼ü¡ïÀŠ ²éÒ‚ì¸æ«ì±” ²éÒ‚ì¸æ«ì±”



将 euc-kr 元数据添加到
<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">

产生以下内容,这是难以辨认的废话(由母语人士验证):

沓 숩∽핅 꿴�귥멩レ콛 꿴�귥멩レ콛



我已经对所有历史悠久的韩文字符集尝试了这种方法,每个字符集都产生了类似的不成功结果。我还尝试通过 Beautiful Soup 解析并升级到 UTF-8,但也失败了。

在 Emacs 中查看文件 看起来很有希望,因为它揭示了较低级别的文本编码。以下是相同的文本示例:

\323\313 \274\374\241\357\300\212 \262\351\322\215\202\354\270\346\253\354\261\224 \262\3\ 51\322\215\202\354\270\346\253\354\261\224



如何识别此文本编码并将其提升为 UTF-8?

最佳答案

emacs 显示的所有八进制代码都小于 254(或八进制中的\376),因此它看起来像是那些旧的 pre-Unicode 字体之一,只是在 ASCII 范围内使用了它自己的映射。如果这是正确的,您只需要尝试弄清楚它的用途是什么字体,找到它,也许自己进行转换。

这是一种痛苦。许多年前,我为一些流行的 pre-Unicode 希腊字体做了类似的事情:http://litot.es/unicode-converter/ (代码:https://github.com/seanredmond/Encoding-Converter)

关于emacs - 解码 90 年代的韩文文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11073292/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com