gpt4 book ai didi

java - 如何判断文本中的某个单词是否无意义?

转载 作者:行者123 更新时间:2023-12-01 23:32:53 25 4
gpt4 key购买 nike

我正在用 Java 创建一个小型搜索引擎,它基本上会抓取用户指定的所有 RSS 提要,然后允许他或她选择一个单词进行搜索。由于 RSS 源文档的数量相当有限,因此我正在考虑在用户输入他或她的搜索词之前先处理这些文档。我想通过创建将某些关键字链接到包含文章本身以及该单词在文章中出现的次数的记录集合的 HashMap 来处理它们。但是,我该如何确定关键词呢?我如何辨别哪些词是无意义的,哪些是无意义的?

最佳答案

“我应该忽略哪些词?”的概念一般称为停用词。最好的搜索引擎不使用停用词。如果我是“The The”乐队的粉丝,如果你的搜索引擎找不到他们,我会很沮丧。此外,搜索确切的短语可能会被天真的停用词实现搞砸。

顺便说一句,你所说的 HashMap 称为倒排索引。我建议阅读这本(免费的在线)书籍,以了解如何构建搜索引擎:http://nlp.stanford.edu/IR-book/information-retrieval-book.html

关于java - 如何判断文本中的某个单词是否无意义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19080284/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com