gpt4 book ai didi

python - NLTK 正则表达式标记器 : Regex to retain just characters in Random text

转载 作者:行者123 更新时间:2023-12-02 03:45:31 26 4
gpt4 key购买 nike

我用过tokenizer = RegexpTokenizer(r'\w+')保留字母数字字符但是如何组合正则表达式来删除仅保留大于长度 2 的字符的所有其他元素

下面是数据框中的一行,其中包含随机文本

0 [ANOTHER 2'' F/P SAMPLE 01:52 ...A13232 / AS OUTPUT MSG...

最佳答案

我认为您需要使用 len>2 查找单词:

RegexpTokenizer(r'\w{3,}')

或者如果只需要字母:

RegexpTokenizer(r'[a-zA-Z]{3,}')

关于python - NLTK 正则表达式标记器 : Regex to retain just characters in Random text,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46924666/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com