gpt4 book ai didi

regex - 在 CountVectorizer 上使用正则表达式删除数字和符号

转载 作者:行者123 更新时间:2023-12-02 02:54:34 25 4
gpt4 key购买 nike

目前,我有一个 CountVectorizer 函数

CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b')

Sklearn 默认使用 token_pattern,我在 get_features_names 上有一些结果如下:

000,02,10,100,1080,11,14,17,19,1994,1ª,2015,2017,22,24horas,2t0s6dgxnm,30,31,32,_aitor,_anamilan_,_cuteresa,_raquel97_

我想删除数字_ 符号。我知道要做到这一点,我必须默认修改正则表达式函数:r'(?u)\b\w\w+\b' 那么,有什么建议吗?

谢谢。

更新:

好词:abrazo, aburrir, extrañar, además

坏词: anamilan,000,02,10,100,1080

我想添加 ñ,á,é,í,ó,ú,我尝试使用 [á-ú_ñ]+ 但它不起作用。

最佳答案

此模式应匹配所有数字和 _。

[\d_]

关于regex - 在 CountVectorizer 上使用正则表达式删除数字和符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50218706/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com