gpt4 book ai didi

lucene - 分析后如何读取 Lucene 文档字段标记?

转载 作者:行者123 更新时间:2023-12-01 13:01:51 24 4
gpt4 key购买 nike

如果我创建一个文档并添加一个既被存储又被分析的字段,我如何才能将这个字段作为标记列表读回?我有以下内容:

            Document doc = new Document();
doc.add(new Field("url", fileName, Store.YES, Index.NOT_ANALYZED));
doc.add(new Field("text", fileContent, Store.YES, Index.ANALYZED));
// add the document to the index
writer.addDocument(doc);

所以 fileContext 是一个包含大量文本的字符串。它被分析,当它存储在索引中时被标记化。但是,我怎样才能得到这些 token 呢?我可以在文档存储后从索引中检索文档,并且可以从文档中读取“文本”字段,但这是作为字符串返回的。如果可能的话,我想获得代币。我的“作者”是一个 IndexWriter 实例,它使用 StandardAnalyzer。任何指针都会受到欢迎。

非常感谢

最佳答案

查看 document.getField("name").tokenStreamValue()

编辑:实际上 this question使用上述 TokenStream 为您提供完整的解决方案。

关于lucene - 分析后如何读取 Lucene 文档字段标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5427845/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com