gpt4 book ai didi

python - 将 .lower() 函数应用于列表中所有单词大小写的字符串

转载 作者:行者123 更新时间:2023-12-01 15:50:23 26 4
gpt4 key购买 nike

我想将函数 .lower() 应用于列表中所有预定义单词的字符串,而不是任何其他单词。例如,采用下面提供的字符串。

string1 = "ThE QuIcK BroWn foX jUmpEd oVer thE LaZY dOg."

现在假设我有一个如下所示的列表:

lower_list = ['quick', 'jumped', 'dog']

我理想的输出是函数将 .lower() 应用于整个字符串,如下所示:

string1.lower()

然后输出的函数仅将 .lower() 应用于列表 lower_list 中的 string1 中的实例,如下所示出现在下面:

> ThE quick BroWn foX jumped oVer thE LaZY dog.

这可以用简单的方式完成吗?我的想法是使用 for 循环,但我需要保留字符串的格式,例如说一个字符串有多行并且在某些行而不是其他行上有​​缩进。

编辑:我收到以下错误

parts[1::2] = (word.lower() for word in parts[1::2]) 
AttributeError: 'NoneType' object has no attribute 'lower'

我认为这可能是因为我在 lower_list 中使用的字符串中包含字母以外的字符。如果我有一个像这样的字符串 '(copy)' 那么我会得到上面的错误。有办法解决这个问题吗?我正在考虑使用 str(xxx) 将每个拆分部分变成一个字符串,但不确定该怎么做......

最佳答案

对于这种问题,你应该小心这样的情况:

>>> phrase = 'the apothecary'
>>> phrase.replace('the', 'THE')
'THE apoTHEcary'

也就是说,您只想对整个单词匹配进行替换,但是通过直接字符串操作只匹配整个单词是相当困难的,因为单词的边界可以在空格处 ' ' 字符,但它也可以位于句号 '.' 或输入字符串的开头或结尾。

幸运的是,正则表达式可以轻松匹配整个单词,因为正则表达式中的 \b 匹配任何 word boundary .所以我们可以这样解决问题:

  • 创建一个匹配 lower_list 中单词的正则表达式,不区分大小写,但前提是它们前后有单词边界。
  • 使用正则表达式将输入字符串拆分成多个部分,捕获匹配项。
  • 将每个捕获的匹配项转换为小写。
  • 再次将零件连接回去。

因为我们拆分的是单词而不是空格,这意味着原始的空格被准确地保留了下来。这是一个实现:

import re

def lowercase_words(string, words):
regex = r'\b(' + '|'.join(words) + r')\b'
parts = re.split(regex, string, flags=re.IGNORECASE)
parts[1::2] = (word.lower() for word in parts[1::2])
return ''.join(parts)

例子:

>>> lowercase_words(string1, lower_list)
'ThE quick BroWn foX jumped oVer thE LaZY dog.'
>>> lowercase_words('ThE aPoThEcArY', ['the'])
'the aPoThEcArY'
>>> lowercase_words(' HELLO \n WORLD ', ['hello', 'world'])
' hello \n world '

上面假设 lower_list 中的单词只包含字母。如果它们可能包含其他字符,那么还有两个问题:

  • 我们需要使用 re.escape 来转义特殊字符。
  • 如果单词以字母开头和/或结尾,我们只想使用 \b 匹配单词边界。

以下使其工作:

import re

def lowercase_words(string, words):
def make_regex_part(word):
word = re.escape(word)
if word[:1].isalpha(): word = r'\b' + word
if word[-1:].isalpha(): word += r'\b'
return word

regex = '(' + '|'.join(map(make_regex_part, words)) + ')'
parts = re.split(regex, string, flags=re.IGNORECASE)
parts[1::2] = (word.lower() for word in parts[1::2])
return ''.join(parts)

例子:

>>> lowercase_words('(TrY) iT nOw WiTh bRaCkEtS', ['(try)', 'it'])
'(try) it nOw WiTh bRaCkEtS'

关于python - 将 .lower() 函数应用于列表中所有单词大小写的字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60062291/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com