java - 如何获取文档字段的 TokenStream 以用于突出显示？

转载作者：行者123 更新时间：2023-12-02 02:00:16

26

4

问题

我目前正在开发一个使用 Lucene 8.1.0 的项目，纯 Lucene - 而不是 Solr。我想为根据用户查询显示的结果添加突出显示。我面临的问题是我无法找到获取指定文档上字段的 TokenStream 的方法。我尝试访问的字段使用术语 vector 以及其他 FieldType 参数进行索引。

我尝试了什么

official documentation TokenSources 类上列出了几乎所有过去使用的方法，作为已弃用。我进行了广泛的搜索，我发现的所有指南/帖子都相对较旧，并且它们都使用 TokenSources 和已弃用方法之一。我愿意使用函数 getTermVectorTokenStreamOrNull() 但我不明白如何使用 Fields 参数以及要传递的内容。 (我无法实例化 Fields 对象，因为它是抽象的，并且没有任何直接已知的子类对我或如何使用它们有意义)。

我当前的解决方案是通过以下方式获取TokenStream:

String text = hit.get(field.label);
Analyzer analyzer = new ClassicAnalyzer();
TokenStream tokenStream = analyzer.tokenStream(field.label, text);
TextFragment[] fragments = highlighter.getBestTextFragments(tokenStream, text, false, 5);

我真正需要帮助的是，如何使用字段的术语 vector 以及如何获取 TokenStream 来设置 Highlighter。
如果你认为这是错误的，我应该使用 here 中的 getBestFragments(Analyzer detector, String fieldName, String text, int maxNumFragments) 方法，那么这意味着我不需要术语 vector 。但据我所知，使用术语 vector 有助于提高搜索时间的性能，并权衡索引大小。您有什么建议？
提前致谢!

最佳答案

找到了我的问题的解决方案。我缺少的是 TokenStreamFromVector类(class)。 TokenStreamFromVector 扩展了 TokenStream，因此我可以将其插入 getBestFragments() 方法。
把这个留给那些迷路并寻找同样东西的人。翻阅USE选项卡确实有帮助，但我不知道为什么 TokenStreamFromVector 没有作为 TokenStream 中的子类链接页面。
(我知道它位于不同的包中，但仍然无法通过正常工作流程快速到达 TokenStreamFromVector 页面。)

关于java - 如何获取文档字段的 TokenStream 以用于突出显示？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57378100/

26

4

0

文章推荐： java - 按下按钮作为热键

文章推荐： elixir - Phoenix 框架插件内的重定向

java - Lucene TokenStream
我有一个关于 lucene 标记化过程的基本问题: TokenStream tokenStream = analyzer.tokenStream(fieldName, reader); Term
rust - 将字符串转换为 TokenStream
给定一个字符串 (str)，如何在 Rust 中将其转换为 TokenStream？我试过使用 quote! 宏。 let str = "4"; let tokens = quote! { let
TokenStream 中存储值的 Lucene 字段
我有一个需要来自 token 流的字段；它不能用字符串实例化然后分析为标记。例如，我可能想将多个列(在我的 RDBMS 中)的数据组合到单个 Lucene 字段中，但我想以自己的方式分析每个列。因此，
java - 如何获取文档字段的 TokenStream 以用于突出显示？
问题我目前正在开发一个使用 Lucene 8.1.0 的项目，纯 Lucene - 而不是 Solr。我想为根据用户查询显示的结果添加突出显示。我面临的问题是我无法找到获取指定文档上字段的 Toke
java |卢森| TokenStream 字段无法存储
在应用程序中，我收到一个应用过滤器的文本，我想将此过滤结果存储到 lucene Document 对象中。我不关心原文。 String stringToProcess = "..."; TokenSt
java - ANTLR4 TokenStream，getText方法
我正在尝试了解 ANTLR4 token ，但我对 token 字符串表示有疑问。考虑以下简单语法: grammar Test; init: integer IDENTIFIER; integer:
lucene - 重读 Lucene TokenStream 时遇到问题
我正在使用 Lucene 4.6，并且显然不清楚如何重用 TokenStream，因为我得到了异常: java.lang.IllegalStateException: TokenStream cont
java - 有没有办法可以修改 ParseTree 及其附带的 TokenStream？
我的问题既是语言实现问题，也是 ANTLR4 API 问题。有什么办法可以修改 ParseTree 及其附带的 TokenStream 吗？这是场景。我有一种定义数据流程序的简单语言。您可以在gi
lexer - 如何使用 antlr 4 TokenStream 作为可迭代流？
我已经使用 antlr 4 创建了一个词法分析器来标记土耳其语自然语言文本，我需要做的是有一个标记流，我可以一个一个地获取标记。如果我像这样使用 CommonTokenStream 会返回一个列表:
c# - 在 Lucene 中搜索 TokenStream 字段
我刚开始使用 Lucene，我觉得我一定对它有根本的误解，但是从示例和文档中我无法弄清楚这个问题。我似乎无法让 Lucene 为使用 TokenStream 初始化的字段返回结果，而使用 strin
java - 将两个 TokenStream 流添加在一起(ASCIIFoldingFilter 案例)
我编写了一个使用 ASCIIFoldingFilter 的自定义分析器，以便将位置名称中的扩展拉丁语集减少为常规拉丁语。 public class LocationNameAnalyzer exten
c# - 为什么 input.TokenStream 解析为 null？
使用 antlr，我正在尝试为这样的树制作一个 TreeWalker: 输入:int x = 3 输出 AST:^(VARDEF int x 3) 我的解析器工作得很好并且还生成了一个如上所示的 AS
java - 如何从 Lucene TokenStream 中获取 Token？
我正在尝试使用 Apache Lucene 进行标记，我对从 TokenStream 获取 token 的过程感到困惑。最糟糕的是，我正在查看 JavaDocs 中解决我问题的评论。 http://
.net - 在 TokenStream Lucene.Net 中获取 TermAttribute
我使用 Lucene.NET3.0.3 如何获得 TermAttribute.I 尽我所能，但我无法获得这里来源: Analyzer analyzer = new Lucene.Net.An
python - 使用 PythonTokenStream 的 PyLucene 自定义 TokenStream
我正在尝试从 Python 序列构建 TokenStream。只是为了好玩，我希望能够将我自己的 token 直接传递给 pylucene.Field("MyField", MyTokenStream
c# - TokenStream 在 ANTLR 解析器 C# 实现中不存在
我目前正在学习“The Definitive ANTLR 4 Reference”的“Building a Translator with a Listener”教程，但我正在使用 C# 并将示例翻译
java - Lucene 2.9 TokenStream API 是否比旧版本更快？
我一直在考虑从 2.4 升级到 2.9，并注意到所有处理属性的人为代码。只是想知道是否有人有任何意见，考虑到它是 .9，这是否会改变，而当 3.0 出来时，事情会改变。我很困惑如何通过反射创建属性并
java - Apache Lucene TokenStream 契约(Contract)违规
使用 Appache Lucene TokenStream 去除停用词导致错误: TokenStream contract violation: reset()/close() call missin
java - 调用addDocument时为"TokenStream contract violation: close() call missing"
我正在使用 Lucene 的功能来构建一种简单的方法来匹配文本中的相似单词。我的想法是在我的文本上运行一个 Analyzer 以提供 TokenStream，并且对于每个 token ，我运行一个
java - Lucene 4.0 重写 final 方法 tokenStream
由于各种原因，我必须使用最新版本的 Lucene API。 API 还没有很好的文档记录，所以我发现自己无法执行简单的 addDocument() 这里是Writer初始化: analyzer = n

首页

博学

6Ren·AI

商城

java - 如何获取文档字段的 TokenStream 以用于突出显示？

问题

我尝试了什么