java - 如何在 Apache Solr 中扁平化对象并应用于字段类型-6ren

java - 如何在 Apache Solr 中扁平化对象并应用于字段类型

转载作者：行者123 更新时间：2023-12-02 10:57:14

25

4

我正在尝试将 lucene tokenizer 迁移到 apache solr。我已经为 lucene 上的每个字段类型(如标题、正文等)编写了 TokenizerFactory 。在lucene中，有一种方法可以添加TokenStream到文档中的字段。在 solr 中，我们必须制作自定义分词器/过滤器才能与 lucene 一起工作。我在给定领域遇到问题，我已经研究了许多博客和书籍，但它们无法解决我的问题。在大多数博客和书籍中，他们都使用 string,int 直接表示字段类型。

我已经为 apache solr 构建了自定义 TokenFilterFactory 并放置在我的 schema.xml 中，如下所示

<fieldType name="text_reversed" class="solr.TextField">
<analyzer>
  <tokenizer class="solr.KeywordTokenizerFactory"/>
  <filter class="analyzer.TextWithMarkUpTokenizerFactory"/>
  <filter class="analyzer.ReverseFilterFactory" />
</analyzer>

当我尝试在 solr 上索引文档时

 TextWithMarkUp textWithMarkUp = //get from method
 SolrInputDocument solrInputDocument = new SolrInputDocument();
 solrInputDocument.addField("id", new Random().nextDouble());
 solrInputDocument.addField("title", textWithMarkUp);

在 Apache Solr 管理面板上结果将如下所示

{
    "id":"0.4470506508669744",
    "title":"com.xyz.data:[text = Several disparities are highlighted in the new report:\n\n74 percent of white male students said they felt like they belonged at school., tokens.size = 24], tokens = [Several] [disparities] [are] [highlighted] [in] [the] [new] [report] [:] [74] [percent] [of] [white] [male] [students] [said] [they] [felt] [like] [they] [belonged] [at] [school] [.] ",
    "_version_":1607597126134530048
}

我无法在自定义 TokenStream 上获取 textWithMarkUp 实例，这将阻止我像之前使用 lucene 那样展平给定对象。在 lucene 中，我曾经在创建自定义 TokenStream 实例后设置 textWithMarkUp 实例。下面是我的 textWithMarkUp 实例的 json 版本

{
"text": "The law, which was passed by the Louisiana Legislature and signed by Gov.",
"tokens": [
    {
        "category": "Determiner",
        "canonical": "The",
        "ids": null,
        "start": 0,
        "length": 3,
        "text": "The",
        "order": 0
    },
    //tokenized/stemmed/tagged all the words
],
"abbreviations": [],
"essentialTokenNumber": 12
}

以下代码是我想要做的

public class TextWithMarkUpTokenizer extends Tokenizer {
    private final PositionIncrementAttribute posIncAtt;
    protected int tokenIndex = -1; // index of the current token in the    collection of metaQTokens
    protected List<MetaQToken> metaQTokens;
    protected TokenStream tokenTokenizer;

    public TextWithMarkUpTokenizer() {
        MetaQTokenTokenizer metaQTokenizer = new MetaQTokenTokenizer();
        tokenTokenizer = metaQTokenizer;
        posIncAtt = addAttribute(PositionIncrementAttribute.class);
    }

    public void setTextWithMarkUp(TextWithMarkUp text) {
      this.markup = text == null ? null : text.getTokens();
    }

    @Override
    public final boolean incrementToken() throws IOException {
      //get instance of TextWithMarkUp here
    }

    private void setCurrentToken(Token token) {
        ((IMetaQTokenAware) tokenTokenizer).setToken(token);
    }
}

我已经遵循了 TextWithMarkUpTokenizerFactory 类的所有实现，但是一旦我们在 solr 上的 lib 文件夹下加载了 jar，Solr 将完全控制工厂类。

那么有没有什么方法可以在 solr 索引期间设置给定实例？我研究过Update Request Processors 。无论如何，这可以解决我的问题吗？

最佳答案

Solr 搜索结果与索引系统收到的结果完全相同。这将是所有更新处理器处理后的原始输入。 Solr 默认使用的更新处理器链不会更改输入。

架构中定义的分析链对搜索结果绝对没有影响 - 它们只会影响索引时和查询时生成的标记。存储的数据不受分析的影响。

当您使用自定义对象执行“addField”时，很可能会调用以下 SolrJ 代码来确定要发送到 Solr 的内容。 (val是输入对象):

writeVal(val.getClass().getName() + ':' + val.toString());

这将创建一个字符串，其中包含类的名称，后跟该类的字符串表示形式。正如 MatsLindh 在评论中所说，SolrJ 对您的自定义对象一无所知，因此数据不会作为您的自定义对象类型到达 Solr。

关于java - 如何在 Apache Solr 中扁平化对象并应用于字段类型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51632368/

25

4

0

文章推荐： java - 导入和反序列化时对象显示 null

文章推荐： url - URI、请求 URI 和 URL 之间有什么区别？

文章推荐： Java 编译日期，如 C __DATE__

文章推荐： java - 如何在Spring中动态启用系统文件访问？

java - 对象 a = 对象 b；对象 a 会发生什么？
我的一位教授给了我们一些考试练习题，其中一个问题类似于下面(伪代码): a.setColor(blue); b.setColor(red); a = b; b.setColor(purple); b
JavaScript 测试(对象 && 对象 !== "null"&& 对象 !== "undefined")
我似乎经常使用这个测试 if( object && object !== "null" && object !== "undefined" ){ doSomething(); } 在对象上，我
C#对象/对象
C# Object/object 是值类型还是引用类型？我检查过它们可以保留引用，但是这个引用不能用于更改对象。 using System; class MyClass { public s
javascript - 通过ajax发送json - 对象 - 对象
我在通过 AJAX 发送 json 时遇到问题。 var data = [{"name": "Will", "surname": "Smith", "age": "40"},{"name": "Wil
javascript - 如何获取值[对象][对象]
当我尝试访问我的 View 中的对象 {{result}} 时(我从 Express js 服务器发送该对象)，它只显示 [object][object]有谁知道如何获取 JSON 格式的值吗？这是
java - 对象...对象[] 和格式
我有不同类型的数据(可能是字符串、整数......)。这是一个简单的例子: public static void main(String[] args) { before("one"); }
javascript - 如何修复[对象，对象]
嗨，我是 json 和 javascript 的新手。我在这个网站找到了使用json数据作为表格的方法。我很好奇为什么当我尝试使用 json 数据作为表时，我得到 [Object,Object]
JavaScript [对象][对象] 调试
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
java - 对象==空或空==对象？
我听别人说 null == object 比 object == null check 例如: void m1(Object obj ) { if(null == obj) // Is thi
VBS教程：对象-Match 对象
Match 对象提供了对正则表达式匹配的只读属性的访问。说明 Match 对象只能通过 RegExp 对象的 Execute 方法来创建，该方法实际上返回了 Match 对象的集合。所有的
VBS教程：对象-Class 对象
Class 对象使用 Class 语句创建的对象。提供了对类的各种事件的访问。说明不允许显式地将一个变量声明为 Class 类型。在 VBScript 的上下文中，“类对象”一词指的是用
VBS教程：对象-Folder 对象
Folder 对象提供对文件夹所有属性的访问。说明以下代码举例说明如何获得 Folder 对象并查看它的属性： Function ShowDateCreated(f
VBS教程：对象-File 对象
File 对象提供对文件的所有属性的访问。说明以下代码举例说明如何获得一个 File 对象并查看它的属性： Function ShowDateCreated(fil
VBS教程：对象-Drive 对象
Drive 对象提供对磁盘驱动器或网络共享的属性的访问。说明以下代码举例说明如何使用 Drive 对象访问驱动器的属性： Function ShowFreeSpac
VBS教程：对象-FileSystemObject 对象
FileSystemObject 对象提供对计算机文件系统的访问。说明以下代码举例说明如何使用 FileSystemObject 对象返回一个 TextStream 对象，此对象可以被读
对象
我是 javascript OOP 的新手，我认为这是一个相对基本的问题，但我无法通过搜索网络找到任何帮助。我是否遗漏了什么，或者我只是以错误的方式解决了这个问题？这是我的示例代码: functio
对象
我可以很容易地创造出很多不同的对象。例如像这样: var myObject = { myFunction: function () { return ""; } };
对象
function Person(fname, lname) { this.fname = fname, this.lname = lname, this.getName = function()
javascript - JSON 返回(对象，对象)
任何人都可以向我解释为什么下面的代码给出 (object, Object) 吗？ (console.log(dope) 给出了它应该的内容，但在 JSON.stringify 和 JSON.parse
javascript - 返回 [对象，对象] 的工具提示
我正在尝试完成散点图 exercise来自免费代码营。然而，我现在只自己学习了 d3 几个小时，在遵循 lynda.com 的教程后，我一直在尝试确定如何在工具提示中显示特定数据。 This code

首页

博学

6Ren·AI

商城

java - 如何在 Apache Solr 中扁平化对象并应用于字段类型