python UnicodeWarning : Unicode equal comparison. 如何解决这个错误？-6ren

python UnicodeWarning : Unicode equal comparison. 如何解决这个错误？

转载作者：行者123 更新时间：2023-11-30 23:15:51

28

4

喜欢here和 here ，我运行这段代码:

with open(fin,'r') as inFile, open(fout,'w') as outFile:
  for line in inFile:
     line = line.replace('."</documents', '"').replace('. ', ' ')
     print(' '.join([word for word in line.lower().split() if len(word) >=3 and word not in stopwords.words('english')]), file = outFile)

我有以下错误:

**UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal
  print(' '.join([word for word in line.lower().split() if len(word) >=3 and word not in stopwords.words('english')]), file = outFile)**

我该如何解决这个问题？

最佳答案

word not in stopwords.words('english')使用比较。要么 word或 stopwords.words('english') 中的至少一个值不是 Unicode 值。

由于您正在读取文件，因此这里最有可能的候选者是 word ;对其进行解码，或使用在读取数据时对数据进行解码的文件对象:

print(' '.join([word for word in line.lower().split()
                if len(word) >=3 and
                   word.decode('utf8') not in stopwords.words('english')]),
      file = outFile)**

或

import io

with io.open(fin,'r', encoding='utf8') as inFile,\
        io.open(fout,'w', encoding='utf8') as outFile:

其中 io.open() function为您提供一个文本模式的文件对象，可根据需要进行编码或解码。

后者不太容易出错。例如，您测试 word 的长度，但您真正测试的是字节数。任何包含 ASCII 代码点范围之外的字符的单词都会导致每个字符出现多个 UTF-8 字节，因此 len(word)与 len(word.decode('utf8')) 不一样.

关于python UnicodeWarning : Unicode equal comparison. 如何解决这个错误？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28023984/

28

4

0

文章推荐： python - 从 Python 2.7 转换到 3.4 时出现 jsonify 问题

文章推荐： python - 如何获取我的python3.4中的unicode版本？

文章推荐： python - Python 文档中给出的 BeautifulSoup 示例不起作用

文章推荐： python - 我可以使用列表来寻址 numpy 数组吗？

java - 字符串比较 : individual comparison Vs appended string comparison
我有六个字符串变量，即 str11、str12、str13、str21、str21 和 str23。我需要比较这些变量的组合。我必须检查的组合是 str11 -- str12 -- str13 作
python - Python Partial String Comparison 需要 String Comparison 的解决方案
场景:我为各自的“节头”(存储为字符串)执行了一些任务，该任务的结果必须针对相同的相应“现有节头”(存储为字符串)保存如果相应任务的“Section Header”是“现有 Section Head
c# - 使用 List.Sort(Comparison comparison) 在 C# 中对列表进行排序
我创建了一个类如下: public class StringMatch { public int line_num; public int num_of_words; } 我已经创建了一个
pandas - pylint， Pandas : Comparison to True should be just 'expr' or 'expr is True' (singleton-comparison)
有没有人在使用 Pandas 时解决了这个 pylint 问题？ C:525,59: Comparison to True should be just 'expr' or 'expr is True
comparison - 为什么coq互感类型必须有相同的参数？
关注 Arthur's suggestion ，我换了我的Fixpoint相互的关系 Inductive关系“建立”了游戏之间的不同比较，而不是“深入研究”。但现在我收到一条全新的错误消息: Err
comparison - 如何在程序中执行值相等比较？
计算机如何执行值相等比较？它是否从最小的位开始逐位比较值，并在遇到两个不同的位时停止？还是从最高位开始？无论在何处/何时找到两个不同的位，它都会遍历所有位吗？最佳答案当您用高级语言(例如 c)编写
comparison - 如何测试Scheme中引用符号的相等性？
在这个例子中， > (= 1 1) #t > (= 'a 'a) *** ERROR IN (console)@2.1 -- (Argument 1) NUMBER expected (= 'a 'a
comparison - 如何比较单词的发音？
这是我的一个个人项目，我不知道从哪里开始，因为它远远超出了我的舒适区。我知道有一些语言学习软件可以让用户记录他或她的声音并将发音与该语言的母语者进行比较。我的问题是，如何实现这一目标？我的意思是
comparison - 比较生成可执行文件是否等效
我需要比较使用相同的编译器/标志进行编译的2个可执行文件和/或共享对象，并确认它们没有更改。我们在一个受监管的环境中工作，因此对于准确地确定可执行文件的哪些部分已发生更改，对于进行测试非常有用。由于
comparison - 文本文件比较软件
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
comparison - 字符缓冲区比较
我有两个字符缓冲区，我正在尝试比较它们的一部分。我有一个奇怪的问题。我有以下代码: char buffer1[50], buffer2[60]; // Get buffer1 and buffer2
comparison - 错误报告解决方案
问题的澄清/总结——我们正在寻找: 托管错误跟踪系统，使用起来和 lighthouse/github/launchpad 一样方便，可以处理附件，集成电子邮件通知和操作(在提交消息中隐含操作)，
comparison - 在算法之间选择
我相信 Stackoverflow 上有很多软件测试工程师、算法验证工程师。有人可以告诉我在以下情况下如何进行。假设我们有一个乳房 X 线照片和 5 种不同的算法，这些算法将这个乳房 X 光照片作为
comparison - 比较还是分配比较昂贵？
我已经开始阅读Algorithms了，我一直想知道，当处理相同类型的基元时，哪个是更昂贵的操作，赋值或比较？语言之间的差异是否很大？最佳答案微观优化几乎总是错误的做法。除非程序运行太慢，否则不要启
comparison - 使用哪种数据挖掘工具？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。去年关闭。 Improve this
comparison - 计算二进制数据相似度
我在这里看到了一些与确定文件相似性相关的问题，但它们都与特定域(图像、声音、文本等)相关联。作为解决方案提供的技术需要了解所比较文件的基础文件格式。我正在寻找的是一种没有此要求的方法，其中可以比较任意
comparison - 如何比较两个规则列表？
我需要比较两个 var -> integer 形式的规则列表，以了解不匹配的情况。判断是否存在lhs相同而rhs不同的规则。例如: {a->3, b->1, c->4} ~ ??? ~ {a->3
comparison - MEF是微软的Lua版本吗？
我看到了 MEF 和 Lua 之间的相似之处。两者都允许您注册方法并根据需要进行部署。 MEF 和 Lua 都是 IoC/依赖注入(inject)的形式吗？最佳答案我假设您了解这些技术之间的巨大差
comparison - 如何比较两个ISO标准指纹模板？
我找到了 Digital persona Finger FX 开源项目，它允许我提供指纹图像(位图)并将指纹细节数据保存在 ISO/IEC 19794-2:2005 中格式。 https://git
comparison - 使用ImageMagick对图像进行均等测试
ImageMagick库中是否有任何相等谓词函数？我想比较两个图像，并找出它们是否完全相同(像素的所有颜色都相同)或有什么不同。我环顾四周，但似乎没有这样的功能。我应该自己使用像素迭代器编写函数吗？

首页

博学

6Ren·AI

商城

python UnicodeWarning : Unicode equal comparison. 如何解决这个错误？