gpt4 book ai didi

python - NLTK 从 CSV 中删除停用词

转载 作者:行者123 更新时间:2023-11-28 21:53:09 27 4
gpt4 key购买 nike

虽然这是一个常见问题,但我找不到适合我的情况的解决方案。我有数据,像下面这样用逗号分隔。

['my scientific','data']['is comma-separated','frequency']

我正在尝试使用

删除停用词
from nltk.corpus import stopwords
stopword = stopwords.words('english')
mynewtext = [w for w in transposed if w not in stopword]
out_file.writerow(w)

但它给我一个错误提示“UnicodeWarning:Unicode 相等比较未能将两个参数转换为 Unicode - 将它们解释为不相等”。我不确定我在哪里犯了错误。我希望我在 csv 文件中的输出类似于

scientific,data
comma-separated,frequency

此外,我希望它适用于上下两种情况。 casefield 在我的 Python 2.7 版中不起作用

最佳答案

我认为您在上面的代码中将 str 对象unicode 对象 进行了比较。

我建议您查看链接 Python unicode equal comparison failed

>>> s1 = u'Hello'
>>> s2 = unicode("Hello")
>>> type(s1), type(s2)
(<type 'unicode'>, <type 'unicode'>)
>>> s1==s2
True
>>>
>>> s3='Hello'.decode('utf-8')
>>> type(s3)
<type 'unicode'>
>>> s1==s3
>>>True

关于python - NLTK 从 CSV 中删除停用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27068612/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com