用于测试 Solr token 过滤器的 Java 代码？-6ren

用于测试 Solr token 过滤器的 Java 代码？

转载作者：行者123 更新时间：2023-11-30 06:17:57

28

4

我尝试编写 Java 代码来查看 Solr token 过滤器的工作原理。

  public class TestFilter {

  public static void main(String[] args) throws IOException {
    StringReader inputText = new StringReader("This is a TEST string");
    Map<String, String> param = new HashMap<>();
    param.put("luceneMatchVersion", "LUCENE_44");

    TokenizerFactory stdTokenFact = new StandardTokenizerFactory(param);
    Tokenizer tokenizer = stdTokenFact.create(inputText);

    param.put("luceneMatchVersion", "LUCENE_44");
    LowerCaseFilterFactory lowerCaseFactory = new LowerCaseFilterFactory(param);
    TokenStream tokenStream = lowerCaseFactory.create(tokenizer);

    CharTermAttribute termAttrib = (CharTermAttribute) tokenStream.getAttribute(CharTermAttribute.class);
    System.out.println("CharTermAttribute Length = " + termAttrib.length());
    while (tokenStream.incrementToken()) {
      String term = termAttrib.toString();
      System.out.println(term);
    }
  }
}

我得到了这个输出和错误消息。

CharTermAttribute Length = 0
Exception in thread "main" java.lang.NullPointerException
    at org.apache.lucene.analysis.standard.StandardTokenizerImpl.zzRefill(StandardTokenizerImpl.java:923)
    at org.apache.lucene.analysis.standard.StandardTokenizerImpl.getNextToken(StandardTokenizerImpl.java:1133)
    at org.apache.lucene.analysis.standard.StandardTokenizer.incrementToken(StandardTokenizer.java:171)
    at org.apache.lucene.analysis.core.LowerCaseFilter.incrementToken(LowerCaseFilter.java:54)
    at com.utsav.solr.TestFilter.main(TestFilter.java:31)

为什么 termAttrib.length() 给出零？

我错过了什么？

最佳答案

正在关注 the JavaDoc of TokenStream

The workflow of the new TokenStream API is as follows:

Instantiation of TokenStream/TokenFilters which add/get attributes to/from the AttributeSource.

The consumer calls TokenStream.reset().

The consumer retrieves attributes from the stream and stores local references to all attributes it wants to access.

The consumer calls incrementToken() until it returns false consuming the attributes after each call.

The consumer calls end() so that any end-of-stream operations can be performed.

The consumer calls close() to release any resource when finished using the TokenStream.

您需要按如下方式重写您的方法

public static void main(String[] args) throws IOException {
    StringReader inputText = new StringReader("This is a TEST string");
    Map<String, String> param = new HashMap<>();
    param.put("luceneMatchVersion", "LUCENE_44");

    TokenizerFactory stdTokenFact = new StandardTokenizerFactory(param);
    Tokenizer tokenizer = stdTokenFact.create(inputText);

    param.put("luceneMatchVersion", "LUCENE_44");
    LowerCaseFilterFactory lowerCaseFactory = new LowerCaseFilterFactory(param);
    TokenStream tokenStream = lowerCaseFactory.create(tokenizer);

    CharTermAttribute termAttrib = (CharTermAttribute) tokenStream.getAttribute(CharTermAttribute.class);

    tokenStream.reset();

    while (tokenStream.incrementToken()) {
        System.out.println("CharTermAttribute Length = " + termAttrib.length());

        System.out.println(termAttrib.toString());
    }

    tokenStream.end();
    tokenStream.close();
}

这产生了以下输出

CharTermAttribute Length = 4
this
CharTermAttribute Length = 2
is
CharTermAttribute Length = 1
a
CharTermAttribute Length = 4
test
CharTermAttribute Length = 6
string

编辑正如评论中提到的，不需要调用 tokenStream.getAttribute，正如 JavaDoc 中指出的那样

Note that only one instance per AttributeImpl is created and reused for every token. This approach reduces object creation and allows local caching of references to the AttributeImpls.

关于用于测试 Solr token 过滤器的 Java 代码？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25381564/

28

4

0

文章推荐： Javascript - 从 sweetalert2 按钮复制确认

文章推荐： javascript - 为什么我的可排序功能在 Rails 中不起作用？

javascript - AngularJS 中的“过滤器”过滤器
我有一个对象数组，我想在键传入“filter”过滤器时提取值。下面是我尝试过的 Controller 代码片段，但我得到的响应类型未定义。请帮我找出哪里出错了。 var states = [{"HI
java - Servlet 过滤器 - 来自 servlet 的转发请求是否会进入 servlet 过滤器？
如果任何 J2EE 应用程序直接访问 servlet，然后 servlet 将相同的请求转发到某个 .jsp 页面。 request.getRequestDispatcher("Login.jsp")
jquery 过滤器.not()
我有一个带有图像缩略图的表单，可以通过复选框进行选择以进行下载。我想要一个包含 jQuery 中图像的数组，用于 Ajax 调用。 2个问题: - 表格顶部有一个复选框，用于切换我想要从映射中排除的所
mysqldump 过滤器？
我必须从服务器转储数据库，将 .sql 传输到另一台服务器，然后运行以下脚本以使用此语法删除某些行: DELETE wp_posts FROM wp_posts INNER JOIN wp_postm
Java文件目录(过滤器)
我想从目录中过滤掉特定类型的文件，但收到错误“ token 语法错误，删除这些 token ”: File dir = new File("c:/etc/etc"); File[] f
PHP 过滤器
几乎所有的 Web 应用程序都依赖外部的输入。这些数据通常来自用户或其他应用程序（比如 web 服务）。通过使用过滤器，您能够确保应用程序获得正确的输入类型。您应该始终对外部数据进行过滤！输
子项和返回父项的 OData 过滤器
我正在开发一个由 OData 服务提供支持的搜索功能。它将返回一个或一列标题对象作为结果。我们需要搜索的许多字段不在标题对象中。它们仅在子对象(导航属性)中。能够针对子字段执行 OData 搜索并仍然
带替换的 Django 过滤器
假设我有以下模型，它有一个方法 variants(): class Example(models.Model): text = models.CharField(max_length=255)
Python 过滤器 defaultdict
我有一个默认的列表列表，但我基本上想这样做: myDefaultDict = filter(lambda k: len(k)>1, myDefaultDict) 除了它似乎只适用于列表。我能做什么？
Django 过滤器 - 分页结果
我正在使用 django-filter 来输出我的模型的过滤结果。那里没有问题。下一步是添加一个分页器……尽管现在已经苦苦挣扎了好几天。 views.py: def funds_overview(re
解释计划分区上的 oracle 过滤器
我正在做一个概念证明，我正在试验一种奇怪的行为。我有一个按日期字段按范围分区的表，如果我设置固定日期或由 SYSDATE 创建的日期，查询的成本会发生很大变化。这些是解释计划: SQL> SELE
configuration - Log4Net 过滤器 "OR"
如果一个或另一个值匹配，是否可以制作一个过滤器，例如一个中性的 PropertyFilter(并传递给链中的下一个过滤器)？就像是: value1 val
基于另一个单元格的 VBA 过滤器
我是 VBA 初学者，正在尝试根据单元格值过滤数据，经过一番谷歌搜索后，我编写了一个有效的代码 Sub FilterDepartment_Sales() Sheet6.Activate
Excel 过滤器 - 仅显示过滤器中的相关值
假设我在 excel 数据透视表中有两个过滤器。两者最初都会显示筛选列的选定范围内的所有值。当我仅在过滤器 1 中选择几个值时，过滤器 2 仍会继续显示基础数据中所选范围内特定过滤器列中的所有值。
Freemarker - 定义自定义内置/过滤器
是否可以定义自定义 build-ins (名称不再适合)在 ftl？由于语义前提，我不想让它成为一个函数，而是一个内置的。最佳答案这是不可能的，?语法是为内置函数保留的。 (顺便说一句，这意味着
Wordpress 过滤器 user_row_actions
我试图在 Edit | 之外添加一个链接通过插件删除wordpress管理员>用户>所有用户列表中的链接..这是我第一次尝试通过查看其他插件或搜索google来制作wordpress插件.. 我添加了
带分页的 Django 过滤器
我正在尝试按照以下教程使用 django 过滤器进行分页，但该教程似乎缺少某些内容，而且我无法使用基于函数的 View 方法显示分页。 https://simpleisbetterthancomple
Powershell 过滤器 csv
由于我是 Powershell 新手，因此寻求最佳实践方面的帮助，我有一个 csv 文件，我想过滤掉 csv 中的每一行，除了包含“未安装”的行然后，我想根据包含计算机列表的单独 csv 文件过滤
我需要审查的项目的 Gerrit 过滤器
我正在尝试创建一个搜索查询，它会告诉我我作为审阅者添加到其中的打开更改，但我还没有提交最新补丁集的代码审查。这应该包括其他人已经评论过的更改，但我没有。我能找到的最接近的是 is:reviewer
java session 过滤器
在我的 Web 应用程序中，我有 3 个主要部分 1. 客户 2. 供应商 3. 管理员我正在使用 java session 过滤器来检查用户 session 并允许访问网站的特定部分。因此客户只

首页

博学

6Ren·AI

商城

用于测试 Solr token 过滤器的 Java 代码？