gpt4 book ai didi

search - Solr 阿拉伯语

转载 作者:行者123 更新时间:2023-12-03 09:36:22 30 4
gpt4 key购买 nike

我正在使用 Solr 以 3 种语言(阿拉伯语、法语和英语)索引文档,我使用了这个 fieldType :

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

一切都很好,但是当我提出这个请求以搜索像 حقل 这样的词时,用的是阿拉伯语。 Solr 没有找到这个词,但是当我把这个词放在对面时 لقح Solr 从左到右查找单词并返回结果。

我可以有阿拉伯语单词的结果吗?

最佳答案

我将在这里将 Daniel 的巧妙分析转化为记录的答案。不要为此投票,只需去找他的一些东西来投票:-)

有两种方法可以获得与 RTL 文本的方向性不匹配。您可以向后索引它,也可以向后查询它。查询 Solr 的简单 HTML 表单永远不会弄乱方向性。在这方面,khaled 正在使用一个库从 PDF 中提取文本,该库成为 PDF 包含“视觉顺序”文本而不是“逻辑顺序”的趋势的受害者。所以索引中充满了向后的阿拉伯语。为了解决这个问题,他必须想出一个可以从 pdf 中提取文本的工作库。

强制 Apache Tika 使用最新的 Apache PDFbox 可能会有所帮助,或者他的 PDF 可能非常古怪,即使是最新的 PDFBox 也无法处理它。在这种情况下,他有一个棘手的问题。

关于search - Solr 阿拉伯语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7834401/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com