gpt4 book ai didi

python - 如何从 Countvectorizer token_pattern 中保留 #hashtag 和 @mention 特征符

转载 作者:行者123 更新时间:2023-12-01 08:19:25 26 4
gpt4 key购买 nike

我使用 sklearn 库从推文中提取字数。但我在删除一些特殊字符时遇到问题。我想保留 CountVectorizer 对象中的“#”和“@”字符。

默认的 token_pattern 参数为:token_pattern='(?u)\b\w\w+\b'

例如在这个语料库上......

['@terör @terör #terör ak @terör ali ali ...']

...输出是:

['ak', 'ali', 'terör', ...]

CountVectorizer 的默认正则表达式会删除特殊字符。我怎样才能保留这些字符?

最佳答案

我用 ; 更改参数

token_pattern=r'\b\w\w+\b|(?<!\w)@\w+|(?<!\w)#\w+')

输出如所期望的那样;

['@terör', '#terör', ...]

关于python - 如何从 Countvectorizer token_pattern 中保留 #hashtag 和 @mention 特征符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54761797/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com