gpt4 book ai didi

character-encoding - 如何解码乱码编码: Special Character Encoding

转载 作者:行者123 更新时间:2023-12-04 13:03:09 27 4
gpt4 key购买 nike

我有 CSV 格式的数据,这些数据在字符编码方面被严重打乱,可能在不同的软件应用程序(LibreOffice Calc、Microsoft、Excel、Google Refine、自定义 PHP/MySQL 软件;在 Windows XP、Windows 7 上)之间来回传输和来自世界不同地区的 GNU/Linux 机器……)。似乎在这个过程中的某个地方,非 ASCII 字符变得严重困惑,我不确定如何解扰它们或检测模式。手动执行此操作将涉及几千条记录...

这是一个例子。对于“Trois-Rivières”,当我在 Python 中打开 CSV 文件的这一部分时,它显示:

Trois-Rivi\xc3\x83\xc2\x85\xc3\x82\xc2\xa0res

问题:我可以通过什么过程逆转

\xc3\x83\xc2\x85\xc3\x82\xc2\xa0

回来

è

即我怎样才能解读这个?首先,这怎么会变得困惑?我该如何对这个错误进行逆向工程?

最佳答案

您可以查看以下提供的解决方案:Double-decoding unicode in python

另一个更简单的暴力解决方案是使用正则表达式 (((\\\x[a-c0-9]{2}){8})) 在一小部分乱序字符之间创建一个映射表 搜索您的输入文件。对于单一来源的文件,法语应该少于 32 个,德语应该少于 10 个。然后您可以使用这个小映射表运行“查找和替换”。

关于character-encoding - 如何解码乱码编码: Special Character Encoding,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8706107/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com