c++ - UTF-8 编码错误，需要帮助转换文本-6ren

c++ - UTF-8 编码错误，需要帮助转换文本

转载作者：搜寻专家更新时间：2023-10-31 00:48:47

25

4

我一直在为海地 (code.google.com/p/ccmts) 开发一个使用 C++ 后端 (http://www.statmt.org/moses/?n=Development.GetStarted) 的统计翻译系统，Python 驱动 C++ 引擎/后端。

我已将 UTF-8 Python 字符串传递给 C++ std::string ，进行了一些处理，将结果返回到 Python 中，这是字符串(从 C++ 打印到 Linux 终端时):

mwen bezwen Ã£Â¨ d medikal

那是什么编码？它是双重编码的字符串吗？

我如何“修复它”使其可渲染？

以这种方式打印是因为我缺少字体或其他东西吗？

python chardet图书馆说:

{'confidence': 0.93812499999999999, 'encoding': 'utf-8'}

但是，Python，当我运行 string/unicode/codecs decode 时，我得到了旧的:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 30: ordinal not in range(128)

哦，Python 将相同的字符串打印到标准输出中。

一个 repr()调用打印以下内容:' mwen bezwen\xc3\xa3\xc2\xa8 d medikal'

最佳答案

它看起来像一个垃圾进，垃圾出的情况。以下是有关如何查看数据中的内容的一些线索。 repr()和 unicodedata.name()是你的 friend 。

>>> s = ' mwen bezwen \xc3\xa3 \xc2\xa8 d medikal '
>>> print repr(s.decode('utf8'))
u' mwen bezwen \xe3 \xa8 d medikal '
>>> import unicodedata
>>> unicodedata.name(u'\xe3')
'LATIN SMALL LETTER A WITH TILDE'
>>> unicodedata.name(u'\xa8')
'DIAERESIS'
>>>

更新:

如果(如 A. N. Other 暗示的那样)您让程序包随机选择输出语言，并且您怀疑它的选择是例如韩语 (a) 告诉我们 (b) 尝试使用与该语言相关的编解码器对输出进行解码......这里不仅有韩语，还有中文、日文和俄文各两个:

>>> s = ' mwen bezwen \xc3\xa3 \xc2\xa8 d medikal '
>>> for enc in 'euc-kr big5 gb2312 shift-jis euc-jp cp1251 koi8-r'.split():
    print enc, s.decode(enc)


euc-kr  mwen bezwen 찾 짢 d medikal 
big5  mwen bezwen 瓊 穡 d medikal 
gb2312  mwen bezwen 茫 篓 d medikal 
shift-jis  mwen bezwen ﾃ｣ ﾂｨ d medikal 
euc-jp  mwen bezwen 達 即 d medikal 
cp1251  mwen bezwen ГЈ ВЁ d medikal 
koi8-r  mwen bezwen цё б╗ d medikal 
>>>

没有一个很合理，真的，尤其是 koi8-r。进一步的建议:检查与您交互的包的文档(请提供 URL!)......它对编码有什么看法？您正在尝试哪两种语言？ “mwen bezwen”在预期的输出语言中是否有意义？尝试更大的文本样本——chardet 是否仍指示 UTF-8？任何较大的输出在预期的输出语言中是否有意义？尝试将英语翻译成另一种只使用 ASCII 的语言——你得到有意义的 ASCII 输出吗？你愿意透露你的 Python 代码和 swig 接口(interface)代码吗？

更新 2 信息流很有趣:“一个字符串处理应用程序”->“一个统计语言翻译系统”->“一个在海地提供帮助的机器翻译系统(opensource/freesoftware)(crisiscommons.org)”

请尝试用以下事实替换“未知”:

Input language: English (guess)
Output language: Haitian Creole
Operating system: linux
Python version: unknown
C++ package name: unknown
C++ package URL: unknown
C++ package output encoding: unknown

Test 1 input: unknown
Test 1 expected output: unknown
Test 1 actual output (utf8): ' mwen bezwen \xc3\xa3 \xc2\xa8 d medikal '
[Are all of those internal spaces really in the string?]

Test 2 input: 'I need medical aid.'
Test 2 expected output (utf8): 'Mwen bezwen \xc3\xa8d medikal.'
Test 2 actual output (utf8): unknown

测试 2 来自 Google Translate (alpha)和
Microsoft Translate (beta) : Mwen bezwen èd medikal .
第三个单词是带有 GRAVE (U+00E8) 后跟“d”的拉丁小写字母 E。

更新 3

你说“”“输入:utf8(也许，我认为我的几个文件中可能有不正确的编码文本)“”“

假设(您从未明确说明过)您的所有文件都应以 UTF-8 编码:

对齐的 en-fr-ht 语料库的 zip 文件有几个文件在尝试将它们解码为 UTF-8 时崩溃。

发生这种情况的诊断:

chardet 没用(在这种情况下)；它迷惑了很长时间，并以 80 到 90 pct 的置信度对 ISO-8859-2 (东欧 aka Latin2) 进行猜测。

下一步:选择 ht-en 目录(ht 使用的重音字符比 fr 少，因此更容易看到发生了什么)。

预期:e-grave 是假定良好的 ht 文本(网站、CMU 文件)中最常见的非 ASCII 字符……大约是下一个 o-grave 的 3 倍。第三个最常见的人在噪音中迷失了。

在文件 hten.txt 中获得了非 ascii 字节的计数。前5:

最后三行解释为

e-grave is c3 a8 in UTF-8
o-grave is c3 b2 in UTF-8
2159 + 6004 approx == 8210
6004 approx == 3 * 2159

前 2 行解释为

e-grave is 8a in old Western Europe DOS encodings like cp850!!
o-grave is 95 in old Western Europe DOS encodings like cp850!!
99164 approx == 3 * 27682

包含 latin1 或 cp1252 的解释不成立(8a 是 latin1 中的控制字符；8a 是 cp1252 中的 S-caron)。

检查内容显示该文件是多个原始文件的集合，一些 UTF-8，至少一个 cp850(或类似文件)。罪魁祸首似乎是圣经!!!

编码的混合解释了 chardet 为何苦苦挣扎。

建议:

(1) 对所有输入文件实现编码检查。确保它们在前面被转换为 UTF-8，就像在边境控制中一样。

(2) 在发布前实现一个脚本来检查 UTF-8 可解码性。

(3) 圣经文本的正字法(一目了然)与网站的正字法不同(更多的撇号)。您可能希望与您的克里奥尔语专家讨论您的语料库是否被不同的正字法扭曲……还有单词的问题；你希望大量使用无酵饼、麻布和 Ember 吗？请注意 cp850 的东西出现在大约 90% 的企业集团中；一些圣经可能还可以，但 90% 似乎超过了顶峰。

(4) 为什么 Moses 不提示非 UTF-8 输入？可能性:(1)它正在处理原始字节，即它不转换为Unicode(2)它尝试转换为Unicode，但默默地忽略失败:-(

关于c++ - UTF-8 编码错误，需要帮助转换文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2320315/

25

4

0

文章推荐： c++ - OpenGL 纹理透明度

文章推荐： c++ - 在 C++ 中派生模板类

文章推荐： c++ - 当 Qt 对象不是通过 Designer 创建时如何处理信号？

帮助! float
我有这个问题: 我们声称对 float 使用相等测试是不安全的，因为算术运算会引入舍入错误，这意味着两个应该相等的数字实际上并不相等。对于这个程序，您应该选择一个数字 N，并编写一个程序来显示 1
Javascript++ -- 帮助
为什么这个脚本的输出是 5 而不是 8 ？我认为 -- 意味着 -1 两次。 var x = 0; var y = 10; while ( x
vb6 - 帮助 ffmpeg
我现在可以从 cmd 窗口中执行的 FFmpeg 过程中读取最后一行。使用脚本主机模型对象引用此源。 Private Sub Command1_Click() Dim oExec
Excel vlookup 帮助
使用 vlookup，当匹配发生时，我想从匹配发生的同一行显示工作表 2 中 C 列的值。我想出的公式从 C 列表 2 中获取值，但它从公式粘贴在表 3 上的行中获取，而不是从匹配发生的位置获取。这
WCF 跟踪日志分析 - 帮助
我在破译 WCF 跟踪文件时遇到了问题，我希望有人能帮助我确定管道中的哪个位置发生了延迟。 “Processing Message XX”的跟踪如下所示，在事件边界和传输到“Process Actio
带有条件连接查询的 Hibernate 帮助
我有四个表，USER、CONTACT、CONACT_TYPE 和 USER_CONTACT USER_CONTACT 存储用户具有填充虚拟数据的表的所有联系人如下用户表 USER_ID(int)|
php 帮助 - 实例化函数
以下有什么作用？ public static function find_by_sql($sql="") { global $database; $result_set = $data
Javabat 帮助 : alarmClock
我正在解决 JavaBat 问题并且对我的逻辑感到困惑。这是任务: Given a day of the week encoded as 0=Sun, 1=Mon, 2=Tue, ...6=Sat,
Scala "match"帮助
我正在研究一些 Scala 代码，发现这种方法让我感到困惑。在匹配语句中，sublist@ 是什么？构造？它包含什么样的值(value)？当我打印它时，它与 tail 没有区别，但如果我用尾部替换它，
iphone - 缩放图像非常慢 - 帮助
我正在使用以下代码自行缩放图像。代码很好，图像缩放也没有问题。 UIImage *originImg = img; size = newSize; if (originImg.size.width >
iphone - 帮助!仪器无法启动
Instruments 无法在我的 iPad 和 iPhone 上启动。两者都已正确配置，我可以毫无问题地从 xcode 调试它们上的代码，但 Instruments 无法启动。我听到的只是一声嘟嘟
iphone - NSRegularExpression 帮助
我想用 iPhone 的 NSRegularExpression 类解析此文本: Uploaded652.81 GB 用于摘录上传和652.81文本。最佳答案虽然我确实认为 xml 解析器更适合解
下拉过滤器的 Javascript 帮助
我找到了 solution在 Stackoverflow 上，根据过滤器显示 HTML“li”元素(请参阅附件)。本质上基于 HTML 元素中定义的 css 类，它填充您可以从中选择的下拉列表。我想
SQL FOR XML 帮助
这是一个简单的问题，但我是在 SQL 2005 中形成 XML 的新手，但是用于形成如下所示表中的 XML 的最佳 FOR XML SQL 语句是什么？ Column1 Column2 -
Flash 文件比它在网站中的背景声音加载得多!帮助
我在 www.enigmafest.com 有一个网站!您可以尝试打开它!我面临的问题是，在预加载器完成后，主页会出现，但其他菜单仍然需要很长时间才能加载，而且声音也至少需要 5 分钟! :( 我怎样
Haskell Curl 帮助
好吧，我正在尝试用 Haskell 来理解 IO，我想我应该编写一个处理网页的简短小应用程序来完成它。我被绊倒的代码片段是(向 bobince 表示歉意，但公平地说，我并不想在这里解析 HTML，只是
javascript - 谷歌浏览器背景页建议/帮助
如何使用背景页面来突出显示网站上的某个关键字，无论网站是什么(谷歌浏览器扩展)？没有弹出窗口或任何东西，它只是在某人正在查看的网站上编辑关键字。我以前见过这样的，就是不明白怎么做!谢谢你的帮助。最佳
JavaScript 帮助、表格和单选按钮
我是 Javascript 新手，需要一些帮助。先看图片: . 积分预测器应用程序。基本上当用户通过单选按钮选择获胜团队时它应该在积分栏中为获胜队添加 10 分，并且并根据得分高的球队自动对表格进
javascript - 从电子邮件到灯箱 - 帮助!
这是我的情况 - 我要发送一份时事通讯，我试图做的是，当用户单击电子邮件中的链接时，它会重定向到我的网页，然后会弹出一个灯箱，显示视频。我无法在页面加载时触发灯箱，因为您可以在查看灯箱之前转到同一页面
Javascript 帮助，获取输入
我有这个代码。 ¿Cuanto es ? Ir 我想获取用户输入的“验证码”值。我尝试这个但行不通。有什么帮助吗？ var campo = d

首页

博学

6Ren·AI

商城

c++ - UTF-8 编码错误，需要帮助转换文本