- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
欧洲的许多语言都是屈折的。这意味着一个单词可以在文本中以多种形式书写。例如,波兰语“komputer”中的“计算机”一词有多种形式:“komputera”、“komputerowi”、“komputerem”、“komputery”等。
我应该如何正确使用 django+haystack+whoosh 来处理语言变形?
每当我搜索任何形式的“komputer”、“komputera”、“komputerowi”时,我的意思都是相同的 ->“komputer”。
在 NLP 中,有一种基于词干提取(切割后缀)或将形式转换为基本形式(“komputerowi”=>“komputer”)的基本方法。有一些图书馆可以提供帮助。
我的第一个想法是准备一些特殊的模板过滤器,它将给定变量中的每个可识别单词转换为具有基本形式而不是形式的文本。然后我可以在 django+haystack 的搜索索引模板中使用它。如果搜索查询也将在 whoosh 引擎中进行评估之前进行转换,这应该会很好。参见示例:
haystack search index template:
{{some_indexed_text|convert_to_base_form_filter}}
text to index: "Nie ma komputera" => "Nie ma komputer" <- this is really indexed
search query: "komputery" => "komputer" <-- this will match
最佳答案
我有一个非常相似的问题,所以我希望我能提供帮助。
默认情况下,Whoosh 仅针对英语进行词干提取。
要为另一种语言实现词干提取,首先看一下内部:
/your_path_to_whoosh/whoosh/lang/analysis.py
StemmingAnalyzer
(默认分析器)已定义并且是一个很好的起点。
stem
函数,从
porter.py
导入, 是另一个重要的地方。
StemmingAnalyzer
里面 analysis.py
.该文件有大量文档,因此您浏览它应该没有问题。你会看到 StemmingAnalyzer
基本上是 Tokenizer
的链接使用正则表达式匹配单词、小写过滤器和基本上调用上述词干函数的词干过滤器。你会看到 StemFilter
将词干函数作为参数,因此您不必重新实现过滤器。 关于Django+干草堆+嗖嗖: how to deal with language inflection,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3688432/
我正在尝试制作一个简单的交易或无交易游戏。我还没有真正取得进展,但希望我能完成它。到目前为止,我只使用 JButtons 制作了一个 JFrame,当您单击按钮时,就会出现金额。接下来我要做的是,当您
我有一个 ASP.NET MVC 3 网站,它通过 JSON 与我的 iOS 应用程序通信。作为 JSON 响应中发送的对象的一部分,我的日期格式为 yyyy-MM-dd HH:mm:ss ZZZ,输
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Division/RegExp conflict while tokenizing Javascript 我
据我了解 Intel® 64 and IA-32 ArchitecturesSoftware Developer’s ManualVolume 3 (3A, 3B, 3C & 3D):System P
在以下代码中,我尝试处理QThread。在此可执行示例中,有三个按钮:第一个用于启动,第二个用于停止,第三个用于关闭。好吧,当我开始执行任务时,它的运行就像一个魅力。 但是,当我想停止while循环时
我正在尝试使用react和meteor将表单数据提交到数据库。 我有一个用于表单的 AddDeal 组件和一个用于交易的集合,以及其中的一个方法。 错误 Exception while simulat
使用 Firebase(本例中为 Firebase 云功能)时,我们必须为每个字节的带宽付费。 所以,我想知道我们如何处理有人以某种方式找到我们的端点然后故意连续请求(通过脚本或工具)的情况? 我在互
根据 svick 的建议我创建了一个小类,其目的是按顺序运行任务,也就是说,它在 ThreadPool 上安排它们,但它确保它们按照提交的顺序一个接一个地执行。它看起来像这样: class Seque
我被相对布局卡住了两天..这是我的线性布局屏幕截图 所以很好。但现在我想在 map 上的某个地方添加刷新按钮,但我发现线性布局是不可能的。所以我尝试了相对布局,但甚至无法获得上面的屏幕。我的页脚布局总
我尝试用 HTML 颜色制作枚举。一开始我认为它会很好很简单,但我碰壁了。颜色可以定义为名称:moroon、gray、grey(相同值)或 RGBA 字符串 #00000000。我从: enum HT
我正在使用grafana获取zabbix代理数据。 我只需匹配以下值之一: Free space on C: (Percentage) Free Space on / (Percentage) 该表达
这个问题在这里已经有了答案: How to define a typedef struct containing pointers to itself? (2 个答案) 关闭 9 年前。 是否有办法
假设我们有一个将在 (c#) 代码中广泛使用的类,例如 Log 类。假设日志将条目写入特定目录中的 XML 文件。现在,强制用户使用所需信息初始化类的一种尝试是将默认(无参数)构造函数设为私有(pri
这里有几个关于我想弄清楚的示例场景: 假设某杂货店商品列为 4 for 5.00。根据列出的交易,我们如何计算每件商品的单价? 一个简单的解决方案是将总价除以列出的数量,在这种情况下,您将得到 1.2
如何处理内联汇编函数中的引用?我正在尝试这个 void foo(int& x) { __asm mov x, 10 } int main() { int x = 0; foo(
如果您有两个足够相似的接口(interface),您希望通过相同的逻辑来运行它们,那么处理这种情况的正确方法是什么: interface DescriptionItem { Descripti
在编写加密实用程序类时,我遇到了以下方法的问题: public static void destroy(Key key) throws DestroyFailedException { if(
可能已经问过了,但我找不到它。这里有 2 个常见的情况(对我来说,在编程 Rails 时......)用 ruby 编写是令人沮丧的: "a string".match(/abc(.+)abc/)
我正在阅读 varargs heap pollution而且我真的不明白 varargs 或不可具体化类型将如何对没有通用性的情况下不存在的问题负责。确实,我可以很容易地替换 public stati
我需要定义一个函数。它需要像这样工作:。另外,老实说,这是一种练习;我被建议使用拉链和自行车。。我已经试了三个半小时来解决这个问题,但还是没有找到解决方案。。问:你能给我一个提示,如何处理这个问题吗?
我是一名优秀的程序员,十分优秀!