gpt4 book ai didi

python - 如何从文本中删除撇号?

转载 作者:行者123 更新时间:2023-12-01 05:06:37 27 4
gpt4 key购买 nike

这不是一个重复的问题,我已经搜索并实现了 stackoverflow 中找到的各种答案,但没有成功。

我正在 python 中将 .docx 文件转换为纯文本,但是 CMD 上的打印显示字符“' ”的有趣字符。 (即canЧÇÖt)。以下是我的代码:

if file.endswith('.docx'):
docx = zipfile.ZipFile(fullpath)
content = docx.read('word/document.xml')
cleaned = re.sub('<(.|\n)*?>','',content)
text=unescape(cleaned)
newtext = text.replace("'", " ")
print newtext

来自 stackoverflow 的答案让我输入了“text=unescape(cleaned)”和“text.replace(“'”,“”)”,但没有任何成功的结果。

如何从字符串变量中删除撇号?或者更好的是,如何确保撇号正确显示?

最佳答案

我的猜测是,您没有在查看'some_text_here',而是在查看'some_text_here'。也就是说,单引号(或“智能”)引号。

这样做:

if file.endswith('.docx'):
...
cleaned = re.sub('<(.|\n)*?>','',content)
cleaner = string.translate(cleaned, None, ["‘","’"])
# python3 has to use:
# # cleaner = cleaned.translate(str.maketrans({'‘':'','’':''}))

供引用:

>>> ord("‘") # left single smart quote
# 8216
>>> ord("’") # right single smart quote
# 8217
>>> ord("'") # single apostrophe
# 39

关于python - 如何从文本中删除撇号?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24877419/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com