gpt4 book ai didi

solr - 如何在 SOLR 中索引 URL,以便我可以在网站之后提升结果

转载 作者:行者123 更新时间:2023-12-01 02:44:03 25 4
gpt4 key购买 nike

我的 SOLR 中索引了数千个文档,这些文档代表从不同网站抓取的数据。文档的字段之一是 SourceURL,它包含我抓取并索引到此文档中的网页的 url。
我想使用提升查询提升特定网站的结果。
例如,我有 4 个文档,每个文档都包含在 SourceURL 中的以下数据

  • https://meta.stackoverflow.com/page1
  • http://www.stackoverflow.com/page2
  • https://stackoverflow.com/page3
  • https://stackexchange.com/page1

  • 我想提升来自 stackoverflow.com 的所有结果,而不是子域(在这种情况下结果 2 和 3 )。
    你知道我如何索引 url 字段,然后使用 boost 查询来识别来自特定网站的所有文档,就像上面的例子一样?

    最佳答案

    一种方法是在索引时间之前解析 url 并指定它是否是主域(例如,schema.xml 文件中的 primarydomain bool 字段)。

    然后你可以提升primarydomain查询结果中的字段。查看使用 DisMaxQParserPlugin从 Solr Wiki 获取有关如何在查询时提升字段的示例。

    关于solr - 如何在 SOLR 中索引 URL,以便我可以在网站之后提升结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7346041/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com