gpt4 book ai didi

search - 使用 Lucene.net 索引多语言内容

转载 作者:行者123 更新时间:2023-12-04 18:37:12 24 4
gpt4 key购买 nike

我用 Lucene.net用于索引网站上的内容和文档等。索引非常简单,格式如下:

LuceneId - Lucene 的唯一 id (TypeId + ItemId)
TypeId - 文本类型(例如页面内容、产品、公共(public)文档等)
ItemId - 网页 id、文档 id 等。
文本 - 索引的文本
标题 - 与搜索结果一起显示的网页标题、文档名称等

我有这些选项来调整它以提供多语言内容:

  • 为每种语言创建一个单独的索引。例如。 Lucene-enGB、Lucene-frFR 等。
  • 保留一个索引并向其添加一个额外的“语言”字段以过滤结果。

  • 哪个是最好的选择 - 或者还有其他选择吗?我以前没有使用过多个索引,所以我倾向于第二个。

    最佳答案

    我有 [2],但我遇到的一个问题是我不能根据语言使用不同的分析器。我已经组合了我想要的语言的停用词,但是我失去了分析器将提供的更高级的东西的能力,比如词干等。

    关于search - 使用 Lucene.net 索引多语言内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/553404/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com