gpt4 book ai didi

java - Lucene/Solr - 索引出版物/文本

转载 作者:行者123 更新时间:2023-12-01 11:02:08 25 4
gpt4 key购买 nike

我希望能够通过方面搜索出版物。这些文档将被注释,因此我会将注释上传到 solr 实例。注释将包含文档中术语的字段。这是一个例子:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<add>
<doc>
<field name="Title">High Glucose Increases the Expression of Inflammatory Cytokine Genes in
Macrophages Through H3K9 Methyltransferase Mechanism.</field>
<field name="Cytokine">INTERFERON </field>
<field name="Cytokine">CYTOKINE </field>
<field name="Cytokine">CYTOKINE</field>
<field name="Cytokine">MEC</field>
<field name="Cytokine">EPA</field>
<field name="Cytokine">DIA</field>
<field name="Cytokine">FIC</field>
<field name="Cytokine">CYTOKINES</field>
<field name="Cytokine">INTERLEUKIN-6 </field>
<field name="Cytokine">INTERLEUKIN</field>
<field name="Cytokine">IL-12P40</field>
<field name="Cytokine">IL-12</field>
<field name="Cytokine">IL-1</field>
<field name="Cytokine">P40</field>
<field name="Cytokine">MACROPHAGE INFLAMMATORY PROTEIN-1</field>
<field name="Cytokine">MACROPHAGE INFLAMMATORY PROTEIN</field>
</doc>
</add>

这些术语均来自细胞因子本体论。

我希望能够将构面设置为 Cytokine,然后选择该术语并查找包含所选术语的所有文档。

这里是要点:

  • 我希望能够存储在文档(它可以显示在多个位置。所以我可以突出显示之后)。所有这些位置都存储在注释中。
  • 我希望能够从方面选择其中一个术语,并且调出包含该术语同义词的文档,但不将其作为构面中的术语上传(或者以某种方式将其区分为同义词(如子类别))。例如汽车和汽车
  • 我希望能够进行交叉搜索,例如查找文件含有 MEC 和 EPA。
  • 我有一个想要索引并想要搜索的术语列表文件由.这些术语具有我已输入的同义词synonyms.txt 文件。

此外,当一个术语在文档中多次出现时,注释在不同位置有该术语的多个实例,我应该如何处理? solr会自动处理重复并且不会给我两次文件吗?

还有一件事:将整个出版物上传到 solr,并将其索引到预定义的术语列表中怎么样?

最佳答案

据我所知,您有同义词,并且应该直接验证搜索词并使用同义词进行验证并返回结果。如果我收到了请告诉我。

如果您在索引时拥有所有同义词,那么您可以将它们索引为多值字段并在该字段上进行搜索。

分面用于搜索,对结果进行分组。

关于java - Lucene/Solr - 索引出版物/文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33260459/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com