language-agnostic - 使用 Lucene 搜索单词的替代形式的最佳实践-6ren

language-agnostic - 使用 Lucene 搜索单词的替代形式的最佳实践

转载作者：行者123 更新时间：2023-12-04 07:48:28

24

4

我有一个可以使用 Lucene 搜索的站点。我从日志中注意到，用户有时找不到他们要查找的内容，因为他们输入了单数术语，但站点上只使用了该术语的复数形式。我希望搜索也能找到一个词的其他形式的用法。这是一个我确信已经解决了很多次的问题，那么最佳实践是什么？

请注意:本站只有英文内容 。

我想到的一些方法:

在某种同义词文件中查找单词以确定给定单词的替代形式。

一些例子:

搜索“汽车”，还将“汽车”添加到查询中。

搜索“carry”，还将“carries”和“carried”添加到查询中。

搜索“small”，还将“smaller”和“smallest”添加到查询中。

搜索“can”，还将“can't”、“cannot”、“cans”和“canned”添加到查询中。

并且它应该反向工作(即搜索“carries”应该添加“carry”和“carried”)。

缺点:

不适用于许多新的技术词，除非经常更新词典/同义词库。

我不确定搜索同义词文件的性能。

基于一些启发式算法生成替代形式。

一些例子:

如果单词以“s”或“es”或“ed”或“er”或“est”结尾，则去掉后缀

如果单词以“ies”或“ied”或“ier”或“iest”结尾，则转换为“y”

如果单词以“y”结尾，则转换为“ies”、“ied”、“ier”和“iest”

尝试在单词中添加“s”、“es”、“er”和“est”。

缺点:

为大多数输入生成大量非单词。

感觉像一个黑客。

看起来像你会在 TheDailyWTF.com 上找到的东西。 :)

更复杂的东西？

我正在考虑对前两种方法进行某种组合，但我不确定在哪里可以找到同义词文件(或它的名称，因为“同义词库”不太正确，但“字典”也不是) )。

最佳答案

考虑在您的分析管道中包含 PorterStemFilter 。确保对构建索引时使用的查询执行相同的分析。

我还使用了 Lancaster stemming 算法，效果很好。以 PorterStemFilter 为指导，很容易与 Lucene 集成。

关于language-agnostic - 使用 Lucene 搜索单词的替代形式的最佳实践，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/893436/

24

4

0

文章推荐： encoding - 带替换的 Blob.decode 似乎不起作用

文章推荐： pass-by-reference - 方案 R5RS : pass by reference

文章推荐： django-extensions - 如何使用加密字符字段

language-agnostic - 移植和迁移在编程上有区别吗？
在嵌入式系统编程的上下文中是否存在普遍差异？最佳答案这些不是正式的术语，所以这是相当主观的。迁移意味着将您的代码库移动到另一个系统(无意返回)。这也可能意味着切换到另一个工具链或编程语言。移植
language-agnostic - 如何用堆栈模拟递归？
听说任何递归算法都可以用栈来表示。最近，我一直在一个可用调用堆栈非常小的环境中编写程序。我需要做一些深度递归，所以我想知道如何重新设计任何递归算法以使用显式堆栈。例如，假设我有这样一个递归函数 f
language-agnostic - 数字是否在所有文本编码中都按顺序表示？
这个问题与语言无关，但受到这些 c/c++ 问题的启发。 How to convert a single char into an int Char to int conversion in C 假设
language-agnostic - 我如何在运行时生成和执行机器代码？
我最接近汇编的是构建我自己的 Java 类库，它加载类文件并允许您创建、编译和反编译类。在努力完成这个项目时，我想知道 Java 虚拟机实际上是如何在 JIT 优化期间在运行时生成 native 机器
language-agnostic - 半字节在编程中的使用
如标题所说的简单问题。我在 StackOverflow(和互联网)上看到了一些关于半字节用例的问题，但我不明白为什么我们需要使用半字节。我的意思是字节是计算中最小的内存单位，因此对它执行操作来操作它的
language-agnostic - 关于在多行条件表达式中放置逻辑运算符的建议
这真是一个详细的格式问题，但我每次都被它绊倒...... 对于多行条件表达式，逻辑运算符的首选位置是什么？备选方案 1:每行末尾的逻辑运算符 if (value1 == comparision1 &
language-agnostic - 哪些图书馆可以正确计算秒数以及哪些日期？
计算“2021-01-01 12:56:23.423 UTC”和“2001-01-01 00:00:00.000 UTC”之间的 SI 秒数” 为例。最佳答案 C++20 可以用下面的语法来完成:
language-agnostic - 函数中的抽象层次
我正在读一本名为“干净的代码”的书，当作者试图讲述我们如何编写一个高效的函数时卡住了。他说，“为了确保我们的函数做”一件事， “我们需要确保我们函数中的语句都处于同一抽象级别”。那么作者究竟想通过抽象
language-agnostic - 让浏览器缓存图片
我的网站上有一张相当大的图片(大约 200kb)。我没有计划在不久的将来改变它。我如何告诉浏览器缓存它？最佳答案设置正确的标题对您有很大帮助。过期时间:2012 年 4 月 15 日星期四 20
language-agnostic - 重构工具的优缺点
一般来说，重构工具的优缺点是什么？最佳答案优势如果工具对您有帮助，您更有可能进行重构。一个工具更有可能在第一次正确地进行“重命名”类型重构。一个工具可以让您在代码库上进行重构，而无需手动进行
language-agnostic - 新程序员的玩具项目
当我第一次开始自学编程时，在完成教程后，我会觉得我仍然无法用语言做任何事情。所以，我环顾四周，想找点事情做。由于我刚刚学习了一些基础知识，因此查找、阅读和添加到一个开源项目中所涉及的工作量似乎是无法克
language-agnostic - 为什么以析取范式表达代码很重要？
在我工作的公司，最近要求所有“高度可见”的 bool 逻辑必须以析取范式表示。例如(尽管这个概念与语言无关)， #if (defined(A) || defined( B )) || (define
language-agnostic - 如何表示魔方
我想知道我们如何在 mathematica 中设计一个魔方。这可能吗？我们如何使用它。我们如何决定立方体的 6 个面上的较小立方体的不同分隔。最佳答案您问的是如何定义数据结构。您的选择是任意的，只
language-agnostic - 系统托盘应用标准
对于具有系统托盘图标的应用程序的行为方式，是否有任何标准？我最近编写了一个应用程序，它大部分时间都位于系统托盘中。我把它交给了一个 friend ，她的第一 react 是双击图标进入主窗口(工作正
language-agnostic - 可分发软件的版权和合理使用
一个商业可分发软件的文本长度和/或音频片段长度是多少才能通过合理使用的阈值并侵犯所包含作品的版权？归属是否可以免除开发者的侵权行为？一个例子是在启动屏幕上使用的小说中的引用。最佳答案不幸的是，没有
language-agnostic - 开发者常用哪些技术来快速建站？
我是一名经验丰富的 C/C++/C#/Objective-C 桌面、Web 和移动程序员，我已经习惯于从头开始构建我的大部分软件。我已经使用 ASP.NET 从头开始构建了我的所有网站。对于我想测
language-agnostic - 用矩阵变换3D向量的方法
我一直在阅读有关使用矩阵转换 Vector3 的内容，并且正在努力深入研究数学并自己编写代码而不是使用现有代码。无论出于何种原因，我的学校类(class)从未包括矩阵，所以我正在填补我的知识空白。谢天
language-agnostic - 递归的相关性
所以我目前正在尝试掌握递归的概念，我理解我遇到的大部分问题，但我觉得它的使用似乎不适用于太多计算问题。不过，这只是一个新手的假设，所以我问，作为程序员，递归有很多实际用途吗？还有，用它可以解决哪些典型
language-agnostic - 规划问题的递归解决方案的最佳方法是什么？
我正在学习递归。我已经使用递归解决了一些其他问题，例如创建二叉树、汉诺塔等。所以，我明白什么是递归，但我发现自己很难规划和实现正确的递归解决方案。是否有任何关于规划、思考或实现问题递归解决方案的一般
language-agnostic - 在虚拟机中运行我的开发工具的建议
每次我需要移动到一台新机器，或者买一台笔记本电脑，或者通过不断的安装和卸载搞砸我的注册表时，我开始变得非常厌烦和厌倦设置我的所有开发工具。这么新的计划。我听说有人虚拟化他们的开发环境，这听起来是个好

首页

博学

6Ren·AI

商城

language-agnostic - 使用 Lucene 搜索单词的替代形式的最佳实践