gpt4 book ai didi

ruby - 正则表达式去除除单词以外的所有内容

转载 作者:数据小太阳 更新时间:2023-10-29 08:55:02 26 4
gpt4 key购买 nike

我对正则表达式无能为力所以请帮我解决这个问题。

基本上,我正在下载网页和 rss 提要,并希望删除除普通单词之外的所有内容。没有句号、逗号、if、ands 和 buts。从字面上看,我有一份英语中最常用单词的列表,我也想去掉这些单词,但我想我知道该怎么做,不需要正则表达式,因为它真的太长了。

如何从一大块文本中删除除空格分隔的单词以外的所有内容?其他所有东西都扔进了垃圾桶。

感谢 Pavel .split(/[^[:alpha:]]/).uniq!

最佳答案

我认为最适合您的方法是将字符串拆分为单词。在这种情况下,String::split功能将是更好的选择。它接受匹配子字符串的正则表达式,它应该将源字符串拆分为数组元素

在你的情况下,它应该是“一些非字母字符”。字母 character class[:alpha:] 表示。因此,这是您需要的示例:

irb(main):001:0> "asd, < er >w , we., wZr,fq.".split(/[^[:alpha:]]+/)
=> ["asd", "er", "w", "we", "wZr", "fq"]

您可以通过 intersecting the resultant array 进一步筛选结果仅包含英文单词的数组:

irb(main):001:0> ["asd", "er", "w", "we", "wZr", "fq"] & ["we","you","me"]
=> ["we"]

关于ruby - 正则表达式去除除单词以外的所有内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3538640/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com