search - Solr 阿拉伯语-6ren

search - Solr 阿拉伯语

转载作者：行者123 更新时间：2023-12-03 09:36:22

30

4

我正在使用 Solr 以 3 种语言(阿拉伯语、法语和英语)索引文档，我使用了这个 fieldType :

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
    <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
    <analyzer type="query">
      <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/> 
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
</fieldType>

一切都很好，但是当我提出这个请求以搜索像 حقل 这样的词时，用的是阿拉伯语。 Solr 没有找到这个词，但是当我把这个词放在对面时 لقح Solr 从左到右查找单词并返回结果。

我可以有阿拉伯语单词的结果吗？

最佳答案

我将在这里将 Daniel 的巧妙分析转化为记录的答案。不要为此投票，只需去找他的一些东西来投票:-)

有两种方法可以获得与 RTL 文本的方向性不匹配。您可以向后索引它，也可以向后查询它。查询 Solr 的简单 HTML 表单永远不会弄乱方向性。在这方面，khaled 正在使用一个库从 PDF 中提取文本，该库成为 PDF 包含“视觉顺序”文本而不是“逻辑顺序”的趋势的受害者。所以索引中充满了向后的阿拉伯语。为了解决这个问题，他必须想出一个可以从 pdf 中提取文本的工作库。

强制 Apache Tika 使用最新的 Apache PDFbox 可能会有所帮助，或者他的 PDF 可能非常古怪，即使是最新的 PDFBox 也无法处理它。在这种情况下，他有一个棘手的问题。

关于search - Solr 阿拉伯语，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7834401/

30

4

0

文章推荐： batch-file - if 语句不工作批处理(直接转到 else)

文章推荐： angularjs - Angular UI-Router 模式删除父状态

文章推荐： javascript - 在 while 循环中使用 if 语句

search - Solr 阿拉伯语
我正在使用 Solr 以 3 种语言(阿拉伯语、法语和英语)索引文档，我使用了这个 fieldType :
ios - 阿拉伯语/自动布局的本地化
当我在设备(它的语言是阿拉伯语)中运行我的应用程序时，我感到震惊的是，应该在正确方向的对象会向左移动，反之亦然。后来我意识到是阿拉伯语本地化的自动布局导致了这个问题。我以编程方式设置自动布局如下:
html - 如何添加事件处理程序以跨越变音符号(阿拉伯语)？
我想一个字母一个字母地拆分阿拉伯语单词，将它们涂成不同的颜色并在其上添加事件处理程序。 Image, how it looks like 我实现了关于绘画的部分想法，并处理了辅音字母 (harf)，但
python - 阿拉伯语/波斯语未正确打印到屏幕
我关注 this教程，一切都很好，我预处理和训练我的模型但是当我想找到与以下代码的相似之处时: model = gensim.models.Word2Vec.load("wiki.fa.word2ve
MySQL 变音符号不敏感搜索(阿拉伯语)
我在使用阿拉伯语文本进行变音符号不敏感搜索时遇到问题。我已经为相关表格测试了多种设置:utf8 和 utf16 编码以及 utf8_general_ci、utf16_general_ci 和 utf
Python 阿拉伯语 NLP
我正在评估 NLTK 在分析和提取情绪的研究中处理阿拉伯文本的能力。问题如下: NTLK 是否能够处理并允许分析阿拉伯文本？ python 是否能够操作\标记阿拉伯文本？我能否使用 Python
PHPMailer:阿拉伯语(非英语)字符的主题名称
我正在使用 PHPMailer API 发送电子邮件。我想知道如何用阿拉伯语(非英语)发送主题 $mail->CharSet = 'utf-8'; $array= FetchTable('cos
html - 如何显示合并两种语言的文本(英语+阿拉伯语)
在过去的 15 天或更长时间里，我一直在为一个奇怪的问题而苦苦挣扎。实际上我有一些阿拉伯语文本，但也有一些英文文本。 MY NAME "some arabic text" "some arabic t
Flutter 阿拉伯语 showDatePicker 摩洛哥本地化
我想用阿拉伯语制作一个 flutter 日期选择器，但有一些变化，这是我的代码: locale: Locale('ar', 'MA'), localizationsDelegates: [
Java 阿拉伯语(回历)日历
我一直在努力为移动应用程序寻找良好的国际日历支持(包括 Hirji)。我的主要限制是 JVM 是 1.3 并且我们只有 AWT。有一个选项可以转移到另一个为我们提供 SWT 的 JVM，但我似乎找不到
用于从右到左方向的 iText 表格行跨度(阿拉伯语)
我的应用程序是用英语和阿拉伯语两种不同版本开发的。我在 iText 中使用 rowspan 和 colspan 创建了 pdf 表格，这在英文版中运行良好，但在阿拉伯语版 rowspan 中不起作用
matlab - 分割草书字符(阿拉伯语 OCR)
我想将阿拉伯语单词分割成单个字符。基于直方图/配置文件，我假设我可以通过根据其基线(它具有相似的像素值)剪切/分割字符来进行分割过程。但是，不幸的是，我仍然坚持构建适当的代码，以使其工作。 % Or
javascript - 阿拉伯语 JavaScript 中的日期时间
我在 JavaScript 函数中遇到了问题 var tDate = new Intl.DateTimeFormat("ar-US", { day: 'numeric', month: 'lo
java - PDFTable Itext 阿拉伯语
我已经编写了 java 代码，我希望在 PdfPTable 上显示阿拉伯文字，该 PdfPTable 被用于 itext 文档以创建 PDF 文档如附图“？？？”是阿拉伯代码' PdfPTable
c# - Lucene.Net 阿拉伯语
简单地说，有没有支持Lucene.Net的Arabic Analyzer。因为我想索引大量的阿拉伯语 txt 文件。我可以使用标准分析器或空白分析器来解析阿拉伯文文件吗？ analyzer = new
javascript - 用户在输入标签中写入后，如何立即将用户英文号码更改为波斯语/阿拉伯语？
我正在使用 Vuejs，我想防止输入标签显示用户的字符并将其替换为我自己的字符(这是一些数字)。我已经在计算中使用了@onchange 和 Watch 以及 getter 和 setter。问题是字
javascript - 以从右到左的语言(阿拉伯语)替换字符串
我正在研究 RTL 功能。我从数据库中获取字符串值作为 (f1 (firstname。但我想要 f1 (firstname) 这是我的 javascript 代码。下面的代码运行良好 EN语言。它不仅
javascript - 阿拉伯语 tinymce 不工作
我已经下载了阿拉伯语格式的阿拉伯语语言包和编辑器显示，但是当我纠正一些它不是用正确的方向写它总是从左方向开始，阿拉伯语总是从右方向开始但是这是行不通的.. 我的代码——
java - utf8(阿拉伯语)字符串显示为问号(？)
我使用的是 3.8.2 版本，插入新记录时，utf8 字符串在数据库中显示为问号 (?)，但它会正确显示旧记录(使用 phpmyadmin 插入)。这是我如何初始化 MySQLPool fun in
python - RTL(阿拉伯语)错位加上在python中唱到电话号码的末尾
我有一个阿拉伯语短信模板，其中包含客户支持号码的占位符，并将占位符替换为实际电话号码(例如 +987654400)。替换时加号 (+) 错位在数字末尾，如 987654400+ 示例代码: >>> >

首页

博学

6Ren·AI

商城

search - Solr 阿拉伯语