第 1 行的 Unicode。-6ren"> 第 1 行的 Unicode。-我正在使用德语的 perl 分词器。分词器对某些文件工作正常,但现在我面临以下错误: perl tokenizer.perl -l de ~/Desktop/me.txt.tok Tokenizer-6ren">
gpt4 book ai didi

perl - utf8 "\xFF"未映射到 tokenizer.perl 第 44 行 第 1 行的 Unicode。

转载 作者:行者123 更新时间:2023-12-05 04:18:17 38 4
gpt4 key购买 nike

我正在使用德语的 perl 分词器。分词器对某些文件工作正常,但现在我面临以下错误:

perl tokenizer.perl -l de < ~/Desktop/me.txt > ~/Desktop/me.txt.tok 
Tokenizer v3
Language: de
utf8 "\xFF" does not map to Unicode at tokenizer.perl line 44, <STDIN> line 1.
Malformed UTF-8 character (byte 0xff) in pattern match (m//) at tokenizer.perl line 45, <STDIN> line 1.
Malformed UTF-8 character (byte 0xff) in pattern match (m//) at tokenizer.perl line 45, <STDIN> line 1.
Malformed UTF-8 character (fatal) at tokenizer.perl line 64, <STDIN> line 1.

有什么想法吗?

提前致谢。

否定。

最佳答案

错误消息具有误导性,但预期信息是正确且有用的:在数据中遇到了字节 FF(十六进制),但它不能出现在 UTF-8 数据中。所以“utf8 "\xFF"”本身是无稽之谈,但将其解读为“字节 FF 遇到的数据据称是 UTF-8 编码的”。同样,将“Malformed UTF-8 character (byte 0xff)”读作“Invalid data (byte FF) encountered in purposeed UTF8 data”。

要找出为什么你的数据包含字节 FF,你需要揭示更多。我的猜测是它实际上是 UTF-16 编码中字节顺序标记的一部分,但这只是一个猜测。

关于perl - utf8 "\xFF"未映射到 tokenizer.perl 第 44 行 <STDIN> 第 1 行的 Unicode。,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16822582/

38 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com