- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我的用户要求我提供一个“类似google”的查询术语建议(自动完成),它对拼写错误的术语和一般的洞察力很有用。Mongo文本索引只搜索完整且拼写正确的术语。
我需要访问文本索引本身,即它的“单词”。我确实读过this crude solution并且正在寻找比双索引和管理术语(word)引用计数更不脆弱的东西。
我所要做的就是得到最多n个以特定文本开头的索引标记。不要告诉我使用regex搜索,因为它会破坏更快的文本索引。
我不想使用弹性搜索、lucene或其他外部索引器:维护噩梦。文本搜索属于数据库,Mongo在这方面有一些优势。
最佳答案
因为您已经对regexp说了不,并且还说您更喜欢使用内置的mongodb文本搜索,所以我将建议您使用一种我以前实现过的方法。它可以进行部分单词搜索、多个单词搜索以及“有限范围”的拼写错误、单数/复数、现在/过去时态、动词、名词搜索。但请注意,如果每个字段都包含1000个单词,这将不高效(可能也不会返回正确的值)。
MongoDB文本搜索只匹配完整的单词,因此字符串应该相应地格式化。关键点是创建一个替代文本字段(您将在其上应用文本索引),而不是用于查找文本匹配项的当前字段。
此外,还必须从客户端输入中创建一个单词数组以匹配
我将概述我所做的一切。假设集合中的字符串是
“使用MongoDB实现自动完成功能”
您将从中创建以下文本字符串并将其存储为另一个字段(文本索引字段)
“im imp impl implement implementi implementi implementin implementing au aut auto co com comp compl comple complete fe fea feat featu featur feature mo mong mongo mongod mongodb”
文件插入前的过程如下所述
清除字符串-转换为小写,删除特殊字符,如-,()等
去掉那些无关紧要的词,如是、是、使用、中间、拥有等。
将剩余的单词推送到数组(input_array)。
对于input_数组中的每个单词,取长度为2、4、5的子串,并将其推送到output_数组。这些将匹配自动完成,并提供一些拼写错误的掩护。例如,“实现”将生成“im”、“imp”、“impl”
对于输入数组中长度为n的每个单词,取长度为n-3、n-2、n-1、n的子串,并将其推入输出数组。这样做的好处是可以弥补一些语法错误/差异。例如-用户类型“implement”,文本与“implementing”将返回正匹配。例如,“implementing”将生成“implement”、“implementi”、“implementin”、“implementing”
合并数组以创建包含多个单词的文本字符串并将其插入到集合中
现在,用户搜索输入也必须格式化为数组。这里还将遵循步骤1、2、3、4、5来创建搜索输入数组。
将步骤4应用于客户端搜索字符串的好处是,它可以为拼写错误提供“一些”保护。例如,用户键入“impdement”,格式化的数组将是('im'、'imp'、'impd'、'impde'、'impdem'、'impdeme'、'impdement')。您可以看到两个有效的匹配项可用于实现。其余的词都是不恰当的词,只会匹配很少的词条
现在,将步骤5应用于客户端搜索术语的好处是提供一些保护,以防止语法变化,如现在/过去时态、单数/复数、名词/动词等。例如,用户类型“implement”、“implementation”、“implemented”、“implements”格式的搜索数组将YS包含术语“implement”,它与集合中的条目进行有效匹配。
必须使用类似于
query[“$text”]={$search:formatted_search_input_array};
如果要显示建议标记,应在结果集中处理一点。您应该从前n个匹配项中获取“原始文本”。然后清理并拆分单词。使用terms search_数组执行直接子字符串匹配,并将匹配结果作为标记返回。但是如果你有少于10个单词的小句子,你也可以像google一样返回完整的文本(如果用户键入多个单词的查询,这会显得更好)
如果你的弦短,你会得到更好的结果。
当然,生成文本字符串的条件应该修改以满足您的需要。您还应该考虑将格式化的备用文本存储在另一个集合中,并通过objectid引用将其链接(如果它很大)。
关于mongodb - 访问/搜索术语自动完成的原始Mongodb文本索引内容(标记化术语),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43332911/
当需要将原始类型转换为字符串时,例如传递给需要字符串的方法时,基本上有两种选择。 以int为例,给出: int i; 我们可以执行以下操作之一: someStringMethod(Integer.to
我有一个位置估计数据库,并且想要计算每月的内核利用率分布。我可以使用 R 中的 adehabitat 包来完成此操作,但我想使用引导数据库中的样本来估计这些值的 95% 置信区间。今天我一直在尝试引导
我希望使用 FTP 编写大型机作业流。为此,我可以通过 FTP 连接到大型机并运行以下命令: QUOTE TYPE E QUOTE SITE FILETYPE=JES PUT myjob.jcl 那么
我是 WPF 的新手。 目前,我正在为名为“LabeledTextbox”的表单元素制作一个用户控件,其中包含一个标签、一个文本框和一个用于错误消息的文本 block 。 当使用代码添加错误消息时,我
我们正在使用 SignalR(原始版本,而不是 Core 版本)并注意到一些无法解释的行为。我们的情况如下: 我们有一个通过 GenericCommand() 方法接受命令的集线器(见下文)。 这些命
使用 requests module 时,有没有办法打印原始 HTTP 请求? 我不只想要标题,我想要请求行、标题和内容打印输出。是否可以看到最终由 HTTP 请求构造的内容? 最佳答案 Since
与直接访问现有本地磁盘或分区的物理磁盘相比,虚拟磁盘为文件存储提供更好的可移植性和效率。VMware有三种不同的磁盘类型:原始磁盘、厚磁盘和精简磁盘,它们各自分配不同的存储空间。 VMware
我有一个用一些颜色着色器等创建的门。 前段时间我拖着门,它问我该怎么办时,我选择了变体。但现在我决定选择创建原始预制件和门颜色,或者着色器变成粉红色。 这是资源中原始预制件和变体的屏幕截图。 粉红色的
我想呈现原始翻译,所以我决定在 Twig 模板中使用“原始”选项。但它不起作用。例子: {{ form_label(form.sfGuardUserProfile.roules_acceptance)
是否可以在sqlite中制作类似的东西? FOREIGN KEY(TypeCode, 'ARawValue', IdServeur) REFERENCES OTHERTABLE(TypeCode, T
这个问题是一个更具体问题的一般版本 asked here .但是,这些答案无法使用。 问题: geoIP数据的原始来源是什么? 许多网站会告诉我我的 IP 在哪里,但它们似乎都在使用来自不到 5 家公
对于Openshift:如何基于Wildfly创建docker镜像? 这是使用的Dockerfile: FROM openshift/wildfly-101-centos7 # Install exa
结果是 127 double middle = 255 / 2 虽然这产生了 127.5 Double middle = 255 / 2 同时这也会产生 127.5 double middle = (
在此处下载带有已编译可执行文件的源代码(大小:161 KB(165,230 字节)):http://www.eyeClaxton.com/download/delphi/ColorSwap.zip 原
以下几行是我需要在 lua 中使用的任意正则表达式。 ['\";=] !^(?:(?:[a-z]{3,10}\s+(?:\w{3,7}?://[\w\-\./]*(?::\d+)?)?/[^?#]*(
这个问题是一个更具体问题的一般版本 asked here .但是,这些答案无法使用。 问题: geoIP数据的原始来源是什么? 许多网站会告诉我我的 IP 在哪里,但它们似乎都在使用来自不到 5 家公
我正在使用GoLang做服务器api,试图管理和回答所发出的请求。使用net/http和github.com/gorilla/mux。 收到请求时,我使用以下结构创建响应: type Response
tl; dr:我认为我的 static_vector 有未定义的行为,但我找不到它。 这个问题是在 Microsoft Visual C++ 17 上。我有这个简单且未完成的 static_vecto
我试图找到原始 Awk (a/k/a One True Awk) 源代码的“历史”版本。我找到了 Kernighan's occasionally-updated site ,它似乎总是链接到最新版本
我在 python 中使用原始 IPv6 套接字时遇到一些问题。我通过以下方式连接: if self._socket != None: # Close out old sock
我是一名优秀的程序员,十分优秀!