gpt4 book ai didi

python - 撇号变成\x92

转载 作者:太空狗 更新时间:2023-10-29 18:00:59 25 4
gpt4 key购买 nike

mycorpus.txt

Human where's machine interface for lab abc computer applications   
A where's survey of user opinion of computer system response time

停用词.txt

let's
ain't
there's

下面的代码

corpus = set()
for line in open("path\\to\\mycorpus.txt"):
corpus.update(set(line.lower().split()))
print corpus

stoplist = set()
for line in open("C:\\Users\\Pankaj\\Desktop\\BTP\\stopwords_new.txt"):
stoplist.add(line.lower().strip())
print stoplist

给出以下输出

set(['a', "where's", 'abc', 'for', 'of', 'system', 'lab', 'machine', 'applications', 'computer', 'survey', 'user', 'human', 'time', 'interface', 'opinion', 'response'])
set(['let\x92s', 'ain\x92t', 'there\x92s'])

为什么撇号在第二组变成了\x92??

最佳答案

window-1252 编码中的代码点 92(十六进制)是 Unicode 代码点 2019(十六进制),即“右单引号”。这看起来很像一个撇号,很可能是你在 stopwords.txt 中的实际字符,我从 python 的解释方式中猜测,它已在 windows-1252 中编码或共享 ASCII 和 ' 代码点值的编码。

' 与 '

关于python - 撇号变成\x92,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15564063/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com