gpt4 book ai didi

python - 有没有办法根据标准 .replace() 某些字符串片段?

转载 作者:行者123 更新时间:2023-11-30 22:34:21 24 4
gpt4 key购买 nike

我正在从包含一些 David Foster Wallace 的 .txt 文件导入,该文件是我从 PDF 复制粘贴的。有些单词跑出了页面,因此以

的形式出现
"interr- upted"

我打算使用以下方法对其进行 sanitizer :

with open(text, "r", 0) as bookFile:
bookString = bookFile.read().replace("- ", "")

除了......这个人还在他的写作中使用了一些奇怪的结构。诸如此类:

"R - - d©"

品牌名称昆虫喷雾Raid©。显然我留下了“R d©”,但是有没有办法让它成为“-”的 .replace() 实例而不是“-”的实例?或者我是否需要将所有内容都变成列表并以这种方式对所有内容进行操作?谢谢。

最佳答案

您可以使用带有否定后向断言的正则表达式来检查前一个字符,并且 re.sub 用空字符串替换匹配项。

'(?<! )- '是一个正则表达式,匹配 '- ' 的所有实例,前面有一个空格字符(有关语法,请参阅 this 部分)。 re.sub('(?<! )- ', '', input_string)将替换所有出现的 '(?<! )- ' input_string 中的模式与 '' (空字符串)并返回结果。

示例:

In [1]: import re

In [2]: re.sub('(?<! )- ', '', 'interr- upted')
Out[2]: 'interrupted'

In [3]: re.sub('(?<! )- ', '', 'R - - d©')
Out[3]: 'R - - d©'

关于python - 有没有办法根据标准 .replace() 某些字符串片段?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44863145/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com