gpt4 book ai didi

ruby - 从文本描述中简单过滤掉常用词

转载 作者:数据小太阳 更新时间:2023-10-29 08:41:18 28 4
gpt4 key购买 nike

像“a”、“the”、“best”、“kind”这样的词。我很确定有实现这一目标的好方法

澄清一下,我正在寻找

  1. 可以实现的最简单的解决方案,最好是在 ruby​​ 中。
  2. 我对错误的容忍度很高
  3. 如果我需要一个常用短语库,那我也非常满意

最佳答案

这些常用词被称为“停用词”——这里有一个类似的 stackoverflow 问题:"Stop words" list for English?

总结:

  • 如果您要处理大量文本,则值得收集有关该特定数据集中单词出现频率的统计数据,并将最频繁出现的单词作为停用词列表。 (你在你的例子中包括“kind”,这让我觉得你可能有一组非常不寻常的数据,例如,有很多像“kind of”这样的口语表达,所以也许你需要这样做。)
  • 既然你说你不太介意错误,那么只使用其他人生成的英语停用词列表可能就足够了,例如fairly long one used by MySQLanything else that Google turns up .

如果您只是将这些单词放入程序中的散列中,那么过滤任何单词列表应该很容易。

关于ruby - 从文本描述中简单过滤掉常用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4655194/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com