gpt4 book ai didi

java - 如何使用 Lucene 获取频繁出现的短语

转载 作者:搜寻专家 更新时间:2023-10-31 19:50:37 26 4
gpt4 key购买 nike

我想用 Lucene 获取一些经常出现的短语。我从 TXT 文件中获取了一些信息,并且由于没有短语信息而失去了很多上下文,例如“信息检索”被索引为两个单独的词。

这样的词组是怎么得到的?我在互联网上找不到任何有用的东西,感谢所有的建议、链接、提示,尤其是示例!

编辑:我只按标题和内容存储我的文档:

 Document doc = new Document();
doc.add(new Field("name", f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("text", fReader, Field.TermVector.WITH_POSITIONS_OFFSETS));

因为对于我所做的最重要的是文件的内容。标题往往根本没有描述性(例如,我有许多 PDF 学术论文的标题是代码或数字)。

我迫切需要从文本内容中索引最常出现的短语,现在我发现这种简单的“词袋”方法效率不高。

最佳答案

Julia,看来你要找的是n-grams , 具体来说 Bigrams (也称为搭配)。

这是一个 chapter about finding collocations (PDF)来自 Manning 和 Schutze 的 Foundations of Statistical Natural Language Processing .

为了用 Lucene 做到这一点,我建议使用 SolrShingleFilterFactory .请看this discussion了解详情。

关于java - 如何使用 Lucene 获取频繁出现的短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3138928/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com