gpt4 book ai didi

mongodb - 访问/搜索术语自动完成的原始Mongodb文本索引内容(标记化术语)

转载 作者:可可西里 更新时间:2023-11-01 09:54:20 25 4
gpt4 key购买 nike

我的用户要求我提供一个“类似google”的查询术语建议(自动完成),它对拼写错误的术语和一般的洞察力很有用。Mongo文本索引只搜索完整且拼写正确的术语。
我需要访问文本索引本身,即它的“单词”。我确实读过this crude solution并且正在寻找比双索引和管理术语(word)引用计数更不脆弱的东西。
我所要做的就是得到最多n个以特定文本开头的索引标记。不要告诉我使用regex搜索,因为它会破坏更快的文本索引。
我不想使用弹性搜索、lucene或其他外部索引器:维护噩梦。文本搜索属于数据库,Mongo在这方面有一些优势。

最佳答案

因为您已经对regexp说了不,并且还说您更喜欢使用内置的mongodb文本搜索,所以我将建议您使用一种我以前实现过的方法。它可以进行部分单词搜索、多个单词搜索以及“有限范围”的拼写错误、单数/复数、现在/过去时态、动词、名词搜索。但请注意,如果每个字段都包含1000个单词,这将不高效(可能也不会返回正确的值)。
MongoDB文本搜索只匹配完整的单词,因此字符串应该相应地格式化。关键点是创建一个替代文本字段(您将在其上应用文本索引),而不是用于查找文本匹配项的当前字段。
此外,还必须从客户端输入中创建一个单词数组以匹配
我将概述我所做的一切。假设集合中的字符串是
“使用MongoDB实现自动完成功能”
您将从中创建以下文本字符串并将其存储为另一个字段(文本索引字段)
“im imp impl implement implementi implementi implementin implementing au aut auto co com comp compl comple complete fe fea feat featu featur feature mo mong mongo mongod mongodb”
文件插入前的过程如下所述
清除字符串-转换为小写,删除特殊字符,如-,()等
去掉那些无关紧要的词,如是、是、使用、中间、拥有等。
将剩余的单词推送到数组(input_array)。
对于input_数组中的每个单词,取长度为2、4、5的子串,并将其推送到output_数组。这些将匹配自动完成,并提供一些拼写错误的掩护。例如,“实现”将生成“im”、“imp”、“impl”
对于输入数组中长度为n的每个单词,取长度为n-3、n-2、n-1、n的子串,并将其推入输出数组。这样做的好处是可以弥补一些语法错误/差异。例如-用户类型“implement”,文本与“implementing”将返回正匹配。例如,“implementing”将生成“implement”、“implementi”、“implementin”、“implementing”
合并数组以创建包含多个单词的文本字符串并将其插入到集合中
现在,用户搜索输入也必须格式化为数组。这里还将遵循步骤1、2、3、4、5来创建搜索输入数组。
将步骤4应用于客户端搜索字符串的好处是,它可以为拼写错误提供“一些”保护。例如,用户键入“impdement”,格式化的数组将是('im'、'imp'、'impd'、'impde'、'impdem'、'impdeme'、'impdement')。您可以看到两个有效的匹配项可用于实现。其余的词都是不恰当的词,只会匹配很少的词条
现在,将步骤5应用于客户端搜索术语的好处是提供一些保护,以防止语法变化,如现在/过去时态、单数/复数、名词/动词等。例如,用户类型“implement”、“implementation”、“implemented”、“implements”格式的搜索数组将YS包含术语“implement”,它与集合中的条目进行有效匹配。
必须使用类似于
query[“$text”]={$search:formatted_search_input_array};
如果要显示建议标记,应在结果集中处理一点。您应该从前n个匹配项中获取“原始文本”。然后清理并拆分单词。使用terms search_数组执行直接子字符串匹配,并将匹配结果作为标记返回。但是如果你有少于10个单词的小句子,你也可以像google一样返回完整的文本(如果用户键入多个单词的查询,这会显得更好)
如果你的弦短,你会得到更好的结果。
当然,生成文本字符串的条件应该修改以满足您的需要。您还应该考虑将格式化的备用文本存储在另一个集合中,并通过objectid引用将其链接(如果它很大)。

关于mongodb - 访问/搜索术语自动完成的原始Mongodb文本索引内容(标记化术语),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43332911/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com