gpt4 book ai didi

java - 我如何计算文本中的单词和表达?

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:53:27 25 4
gpt4 key购买 nike

我想计算一些给定的单词或短语在文本中出现的次数,但我想使用一些字符串相似度算法。

每个词或表达都有一个值,所以我会根据找到的词数等设置文本的相关性

我猜想 Java 的 String 类不能提供这个。我需要为要查找的每个单词或表达式迭代所有文本吗?

是否有用于文本处理的库?

示例:查找包含“videogame”、“i have a videogame”等类似内容的文本,评估类似的表达方式。我想如果我对每个需要评估的单词或表达式进行迭代,我找不到相似的单词并且速度会更慢。

最佳答案

but I want use some String similarity algorithms.

看看Lucene .允许您索引一些文本并使用相似性算法查找作品。我认为您想拆分每个单词并使用 lucene 对它们进行索引。然后对于您感兴趣的所有单词,您可以搜索索引。您可以执行诸如 Automobile~ 之类的操作,这将执行模糊搜索。这是一个粗略的算法:

for each word in STRING.split(' ')
index word

for each word in your list
search for word and look for number of occurrences

关于java - 我如何计算文本中的单词和表达?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6848869/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com