gpt4 book ai didi

python - 从 python 列表中的标记中删除非字母

转载 作者:行者123 更新时间:2023-11-28 22:41:30 28 4
gpt4 key购买 nike

我的数据在列表中。我标记了数据。数据包含非字母(例如,?、.、!)。

我想从下面的列表中删除非字母(例如,?、.、!)。

[['comfortable',
'questions?',
'menu',
'items!',
'time',
'lived',
'there,',
'could',
'easily',
'direct',
'people',
'appropriate',
'menu',
'choices',
'given',
'allergies.'],
['.',
'sure',
'giving',
'wheat',
'fiction',
'free',
'foodthis',
'place',
'clean.']]

输出应该是这样的:

[['comfortable',
'questions',
'menu',
'items',
'time',
'lived',
'there,',
'could',
'easily',
'direct',
'people',
'appropriate',
'menu',
'choices',
'given',
'allergies'],
['sure',
'giving',
'wheat',
'fiction',
'free',
'foodthis',
'place',
'clean']]

我试过下面的代码(不工作):

import re 
tokens = [re.sub(r'[^A-Za-z0-9]+', '', x) for x in texts]

有什么建议吗?

最佳答案

您的正则表达式方法不起作用,因为您拥有的是一个列表列表,因此您正试图将内部列表传递给 re.sub

您也应该遍历内部列表,然后使用您的 re.sub 。示例 -

>>> tokens = [[y for y in (re.sub(r'[^A-Za-z0-9]+', '', x) for x in sublst) if y] for sublst in texts]
>>> pprint.pprint(tokens)
[['comfortable',
'questions',
'menu',
'items',
'time',
'lived',
'there',
'could',
'easily',
'direct',
'people',
'appropriate',
'menu',
'choices',
'given',
'allergies'],
['sure', 'giving', 'wheat', 'fiction', 'free', 'foodthis', 'place', 'clean']]

关于python - 从 python 列表中的标记中删除非字母,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32571686/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com