Django+干草堆+嗖嗖: how to deal with language inflection-6ren

Django+干草堆+嗖嗖: how to deal with language inflection

转载作者：行者123 更新时间：2023-12-02 07:51:14

26

4

欧洲的许多语言都是屈折的。这意味着一个单词可以在文本中以多种形式书写。例如，波兰语“komputer”中的“计算机”一词有多种形式:“komputera”、“komputerowi”、“komputerem”、“komputery”等。

我应该如何正确使用 django+haystack+whoosh 来处理语言变形？

每当我搜索任何形式的“komputer”、“komputera”、“komputerowi”时，我的意思都是相同的 ->“komputer”。

在 NLP 中，有一种基于词干提取(切割后缀)或将形式转换为基本形式(“komputerowi”=>“komputer”)的基本方法。有一些图书馆可以提供帮助。

我的第一个想法是准备一些特殊的模板过滤器，它将给定变量中的每个可识别单词转换为具有基本形式而不是形式的文本。然后我可以在 django+haystack 的搜索索引模板中使用它。如果搜索查询也将在 whoosh 引擎中进行评估之前进行转换，这应该会很好。参见示例:

haystack search index template:
    {{some_indexed_text|convert_to_base_form_filter}}

text to index: "Nie ma komputera"  => "Nie ma komputer" <- this is really indexed
 search query: "komputery"         => "komputer"   <-- this will match

但我不认为这是这个问题的“优雅”解决方案，其他一些功能也不起作用 - 比如提出拼写错误的建议。

那么 - 我应该如何解决这个问题？也许我应该使用除了嗖嗖之外的其他搜索引擎？

最佳答案

我有一个非常相似的问题，所以我希望我能提供帮助。

默认情况下，Whoosh 仅针对英语进行词干提取。
要为另一种语言实现词干提取，首先看一下内部:

/your_path_to_whoosh/whoosh/lang/analysis.py

这是 StemmingAnalyzer (默认分析器)已定义并且是一个很好的起点。 stem函数，从 porter.py 导入, 是另一个重要的地方。

所以，这三个步骤是:

实现您自己的词干提取函数，将 porter.py 中的词干函数和任何语法和语言引用资料作为引用，以获取正确的规则。

实现你自己的分析器作为引用StemmingAnalyzer里面 analysis.py .该文件有大量文档，因此您浏览它应该没有问题。你会看到 StemmingAnalyzer基本上是 Tokenizer 的链接使用正则表达式匹配单词、小写过滤器和基本上调用上述词干函数的词干过滤器。你会看到 StemFilter将词干函数作为参数，因此您不必重新实现过滤器。

在模式创建时传递您全新的分析器功能，请参见此处:http://files.whoosh.ca/whoosh/docs/latest/schema.html#creating-a-schema

我希望这有帮助!

关于Django+干草堆+嗖嗖: how to deal with language inflection，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3688432/

26

4

0

文章推荐： vim - 我的 vimgrep 搜索没有像我预期的那样运行

文章推荐： sql - perl dbi 回滚不起作用

文章推荐： php - 帮我阻止用户输入有害代码

java - 我需要有关“Deal or no Deal”Java 游戏的帮助
我正在尝试制作一个简单的交易或无交易游戏。我还没有真正取得进展，但希望我能完成它。到目前为止，我只使用 JButtons 制作了一个 JFrame，当您单击按钮时，就会出现金额。接下来我要做的是，当您
objective-c - iOS : how to deal (or not deal) with timezones? 中的日期/时间解析
我有一个 ASP.NET MVC 3 网站，它通过 JSON 与我的 iOS 应用程序通信。作为 JSON 响应中发送的对象的一部分，我的日期格式为 yyyy-MM-dd HH:mm:ss ZZZ，输
JavaScript 词法分析器 : dealing with "/"
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Division/RegExp conflict while tokenizing Javascript 我
x86 - 一个OS "deal in"虚拟地址和物理地址怎么算
据我了解 Intel® 64 and IA-32 ArchitecturesSoftware Developer’s ManualVolume 3 (3A, 3B, 3C & 3D):System P
multithreading - PyQt : How to deal with QThread?
在以下代码中，我尝试处理QThread。在此可执行示例中，有三个按钮:第一个用于启动，第二个用于停止，第三个用于关闭。好吧，当我开始执行任务时，它的运行就像一个魅力。但是，当我想停止while循环时
javascript - 模拟调用 'deals.insert'错误效果时出现异常
我正在尝试使用react和meteor将表单数据提交到数据库。我有一个用于表单的 AddDeal 组件和一个用于交易的集合，以及其中的一个方法。错误 Exception while simulat
Firebase云函数: how to deal with continuous request
使用 Firebase(本例中为 Firebase 云功能)时，我们必须为每个字节的带宽付费。所以，我想知道我们如何处理有人以某种方式找到我们的端点然后故意连续请求(通过脚本或工具)的情况？我在互
c# - 按顺序运行任务 : how to deal with exceptions?
根据 svick 的建议我创建了一个小类，其目的是按顺序运行任务，也就是说，它在 ThreadPool 上安排它们，但它确保它们按照提交的顺序一个接一个地执行。它看起来像这样: class Seque
安卓 : how to deal with relative layout
我被相对布局卡住了两天..这是我的线性布局屏幕截图所以很好。但现在我想在 map 上的某个地方添加刷新按钮，但我发现线性布局是不可能的。所以我尝试了相对布局，但甚至无法获得上面的屏幕。我的页脚布局总
Swift 非常长的枚举，有一种不同的情况 : how to deal with that?
我尝试用 HTML 颜色制作枚举。一开始我认为它会很好很简单，但我碰壁了。颜色可以定义为名称:moroon、gray、grey(相同值)或 RGBA 字符串 #00000000。我从: enum HT
regex - 正则表达式: how to deal with character/
我正在使用grafana获取zabbix代理数据。我只需匹配以下值之一: Free space on C: (Percentage) Free Space on / (Percentage) 该表达
C 列表 : dealing with typedef
这个问题在这里已经有了答案: How to define a typedef struct containing pointers to itself? (2 个答案) 关闭 9 年前。是否有办法
c# - 设计题: How to deal with initialization?
假设我们有一个将在 (c#) 代码中广泛使用的类，例如 Log 类。假设日志将条目写入特定目录中的 XML 文件。现在，强制用户使用所需信息初始化类的一种尝试是将默认(无参数)构造函数设为私有(pri
algorithm - 确定用于计算 "deal"列表的单个项目价格的算法
这里有几个关于我想弄清楚的示例场景: 假设某杂货店商品列为 4 for 5.00。根据列出的交易，我们如何计算每件商品的单价？一个简单的解决方案是将总价除以列出的数量，在这种情况下，您将得到 1.2
C++ 内联汇编 : how to deal with references?
如何处理内联汇编函数中的引用？我正在尝试这个 void foo(int& x) { __asm mov x, 10 } int main() { int x = 0; foo(
Typescript 联合类型 : Dealing with Interfaces
如果您有两个足够相似的接口(interface)，您希望通过相同的逻辑来运行它们，那么处理这种情况的正确方法是什么: interface DescriptionItem { Descripti
java8 : dealing with default methods
在编写加密实用程序类时，我遇到了以下方法的问题: public static void destroy(Key key) throws DestroyFailedException { if(
ruby 语法糖 : dealing with nils
可能已经问过了，但我找不到它。这里有 2 个常见的情况(对我来说，在编程 Rails 时......)用 ruby 编写是令人沮丧的: "a string".match(/abc(.+)abc/)
java - 可变参数堆污染 : what's the big deal?
我正在阅读 varargs heap pollution而且我真的不明白 varargs 或不可具体化类型将如何对没有通用性的情况下不存在的问题负责。确实，我可以很容易地替换 public stati
Deal cards in Haskell(在哈斯克尔发牌)
我需要定义一个函数。它需要像这样工作：。另外，老实说，这是一种练习；我被建议使用拉链和自行车。。我已经试了三个半小时来解决这个问题，但还是没有找到解决方案。。问：你能给我一个提示，如何处理这个问题吗？

首页

博学

6Ren·AI

商城

Django+干草堆+嗖嗖: how to deal with language inflection