regex - MongoDB搜索和排序，具有匹配数和完全匹配-6ren

regex - MongoDB搜索和排序，具有匹配数和完全匹配

转载作者：行者123 更新时间：2023-12-01 09:50:02

26

4

我想创建一个小的MongoDB搜索查询，在其中我要对基于完全匹配的结果集进行排序，然后再按否。的比赛。

例如。如果我有以下标签

Physics
11th-Physics
JEE-IIT-Physics
Physics-Physics

然后，如果我搜索“物理”，则其排序应为

Physics
Physics-Physics
11th-Physics
JEE-IIT-Physics

最佳答案

寻找您在这里谈论的“得分”是“不完美解决方案”中的一项技能。在这种情况下，“最佳匹配”从“文本搜索”开始，而“不完美”是在使用MongoDB的文本搜索功能时首先要考虑的术语。

MongoDB不是“不是”专用的“文本搜索”产品，也不是(像大多数数据库一样)试图成为一体。 “文本搜索”的全部功能保留给具有该领域专业知识的专用产品。因此，也许不是最合适的选择，但是对于那些可以忍受这些限制并且不想实现另一个引擎的人，可以选择“文本搜索”。还是!至少。

话虽如此，让我们看看可以对给定的数据样本做什么。首先在集合中设置一些数据:

db.junk.insert([
    { "data": "Physics" },
    { "data": "11th-Physics" },
    { "data": "JEE-IIT-Physics" },
    { "data": "Physics-Physics" },
    { "data": "Something Unrelated" }
])

然后，当然要“启用”文本搜索功能，然后需要使用“文本”索引类型为文档中的至少一个字段建立索引:

db.junk.createIndex({ "data": "text" })

现在已经准备就绪，让我们看一下第一个基本查询:

db.junk.find(
   { "$text": { "$search": "\"Physics\"" } },
   { "score": { "$meta": "textScore" } }
).sort({ "score": { "$meta": "textScore" } })

这将产生如下结果:

{
    "_id" : ObjectId("55af83b964876554be823f33"),
    "data" : "Physics-Physics",
    "score" : 1.5
}
{
    "_id" : ObjectId("55af83b964876554be823f30"),
    "data" : "Physics",
    "score" : 1
}
{
    "_id" : ObjectId("55af83b964876554be823f31"),
    "data" : "11th-Physics",
    "score" : 0.75
}
{
    "_id" : ObjectId("55af83b964876554be823f32"),
    "data" : "JEE-IIT-Physics",
    "score" : 0.6666666666666666
}

这样可以“接近”您想要的结果，但是当然没有“完全匹配”组件。此外，此处的文本搜索功能与 $text 运算符一起使用的逻辑意味着“物理-物理”是此处的首选匹配项。

这是因为然后引擎无法识别介于两者之间的“非单词”，例如“连字符”。为此，“物理”一词在文档的索引内容中多次出现，因此得分更高。

现在，这里的其余逻辑取决于“完全匹配”的应用以及其含义。如果要在字符串中查找“Physics”，而在“not”中用“连字符”或其他字符包围，则以下内容不适用。但是，您只能匹配“完全”只是“物理”字段的“值”:

db.junk.aggregate([
    { "$match": { 
        "$text": { "$search": "Physics" } 
    }},
    { "$project": {
        "data": 1,
        "score": {
           "$add": [
               { "$meta": "textScore" },
               { "$cond": [
                   { "$eq": [ "$data", "Physics" ] },
                   10,
                   0
               ]}
           ]
        }
    }},
    { "$sort": { "score": -1 } }
])

这样一来，您既可以查看引擎生成的“textScore”，又可以通过逻辑测试应用一些数学运算。在这种情况下，“数据”与“物理”完全相等，然后我们使用 $add 通过其他因素“加权”分数:

{
    "_id": ObjectId("55af83b964876554be823f30"),
    "data" : "Physics",
    "score" : 11
}
{
    "_id" : ObjectId("55af83b964876554be823f33"),
    "data" : "Physics-Physics",
    "score" : 1.5
}
{
    "_id" : ObjectId("55af83b964876554be823f31"),
    "data" : "11th-Physics",
    "score" : 0.75
}
{
    "_id" : ObjectId("55af83b964876554be823f32"),
    "data" : "JEE-IIT-Physics",
    "score" : 0.6666666666666666
}

这是 aggregation framework可以通过允许在附加条件下操作返回的数据来为您完成的工作。最终结果将传递到 $sort 阶段(请注意，它以降序反向)，以使该新值成为排序键。

但是聚合框架实际上只能在字符串上处理“完全匹配”。目前尚无处理正则表达式匹配或字符串中返回投影有意义值的索引位置的工具。甚至没有逻辑上的匹配。而且 $regex 操作仅用于“过滤”查询，因此此处不使用。

因此，如果您正在“短语”中寻找比“字符串等于”完全匹配更复杂的东西，那么另一个选择是使用 mapReduce。

这是另一种“不完美”的方法，因为 mapReduce命令的局限性意味着引擎通过这种查询获得的“textScore”已“完全消失”。尽管可以正确选择实际文档，但是引擎无法使用固有的“排名数据”。这是MongoDB首先将“分数”“投影”到文档中的副产品，而“投影”不是 mapReduce可用的功能。

但是您可以使用JavaScript“玩”这些字符串，如我的“不完美”示例中所示:

db.junk.mapReduce(
    function() {
        var _id = this._id,
            score = 0;

        delete this._id;

        score += this.data.indexOf(search);
        score += this.data.lastIndexOf(search);

        emit({ "score": score, "id": _id }, this);
    },
    function() {},
    { 
        "out": { "inline": 1 },
        "query": { "$text": { "$search": "Physics" } },
        "scope": { "search": "Physics" }
    }
)

结果如下:

{
    "_id" : {
        "score" : 0,
        "id" : ObjectId("55af83b964876554be823f30")
    },
    "value" : {
        "data" : "Physics"
    }
},
{
    "_id" : {
        "score" : 8,
        "id" : ObjectId("55af83b964876554be823f33")
    },
    "value" : {
        "data" : "Physics-Physics"
    }
},
{
    "_id" : {
        "score" : 10,
        "id" : ObjectId("55af83b964876554be823f31")
    },
    "value" : {
        "data" : "11th-Physics"
    }
},
{
    "_id" : {
        "score" : 16,
        "id" : ObjectId("55af83b964876554be823f32")
    },
    "value" : {
        "data" : "JEE-IIT-Physics"
   }
}

我自己的“愚蠢的小算法”基本上是在这里同时获取匹配字符串的“第一个”和“最后一个”索引位置，并将它们加在一起以产生一个分数。这可能不是您真正想要的，但重点是，如果您可以使用JavaScript编写逻辑代码，则可以将其扔给引擎以产生所需的“排名”。

这里要记住的唯一真正的“技巧”是，“得分” 必须是此处的分组“键”的“先前”部分，并且如果包括原始文档 _id值，则该复合键部分必须是重命名，否则 _id将具有顺序优先权。

这只是 mapReduce的一部分，其中作为“优化”，所有输出的“键”值在由化简器进行处理之前都以“升序”排序。当然，哪一个在这里什么都不做，因为我们不是在“聚合”，而是通常使用JavaScript运行程序和 mapReduce的文档重塑。

因此，总体来说，这些是可用的选项。它们都不是完美的，但是您也许可以忍受它们，甚至只是“接受”默认引擎结果。

如果您想要更多，请查看更适合的外部“专用”文本搜索产品。

旁注:此处的 $text搜索优于 $regex，因为它们可以使用索引。 “非锚定”正则表达式(不带脱字号 ^)不能在MongoDB中最佳使用索引。因此， $text搜索通常将是在短语中查找“单词”的更好基础。

关于regex - MongoDB搜索和排序，具有匹配数和完全匹配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31519127/

26

4

0

文章推荐： flash - 交互式世界地图 - 建议？

文章推荐： Dockerfile，使用 VOLUME 持久化数据

文章推荐： scala - 如何一起使用 Circe Optics 和 Decode

awk - 如果行与“foo”匹配，线上方与“bar”匹配，线下方与“baz”匹配，则删除行？
使用sed和/或awk，仅在行包含字符串“ foo”并且行之前和之后的行分别包含字符串“ bar”和“ baz”时，我才希望删除行。因此，对于此输入： blah blah foo blah bar
c# - 如何按 X% 匹配 2 个字符串(即 >90% 匹配)
例如: S1: "some filename contains few words.txt" S2:“一些文件名包含几个单词 - draft.txt” S3:“一些文件名包含几个单词 - 另一个 dr
R 合并数据帧，允许不精确的 ID 匹配(例如，附加字符 1234 匹配 ab1234)
我正在尝试处理一些非常困惑的数据。我需要通过样本 ID 合并两个包含不同类型数据的大数据框。问题是一张表的样本 ID 有许多不同的格式，但大多数都包含用于匹配其 ID 中某处所需的 ID 字符串，例如
css - 匹配 col-md 时显示 div，匹配 col-sm 时不显示
我想在匹配特定屏幕尺寸时显示特定图像。在这种情况下，对于 Bootstrap ，我使用 col-xx-## 作为我的选择。但似乎它并没有真正按照我认为应该的方式工作。基本思路，我想显示一种全屏图像，
apache - mod_rewrite 问题 : RewriteCond %{REQUEST_FILENAME} ! -f 匹配，即使 REQUEST_FILENAME 不应(完全)匹配
出于某种原因，这条规则 RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteRule ^(.*
F# 匹配 ->
我想做类似的东西(Nemerle 语法) def something = match(STT) | 1 with st= "Summ" | 2 with st= "AVG" =>
JavaScript 匹配
假设这是我的代码 var str="abc=1234587;abc=19855284;abc=1234587;abc=19855284;abc=1234587;abc=19855284;abc=123
JavaScript 匹配
我怎样才能得到这个字符串的数字:'(31.5393701, -82.46235569999999)' 我已经在尝试了，但这离解决方案还很远:) text.match(/$(\d+),(\d+)$/
JavaScript 匹配
如何去除输出中的逗号 (,)？有没有更好的方法从字符串或句子中搜索 url。 alert(" http://www.cnn.com df".match(/https?:\/\/([-\w\.]+
Python - 匹配
a = ('one', 'two') b = ('ten', 'ten') z = [('four', 'five', 'six'), ('one', 'two', 'twenty')] 我正在尝试
vba - 循环遍历行和列时的索引/匹配
我已经编写了以下代码，我希望用它来查找从第 21 列到另一张表中最后一行的值，并根据这张表中 A 列和另一张表中 B 列中的值将它们返回到这张表床单。当我使用下面的代码时，我得到一个工作表错误。你能
Excel 匹配 IF 语句未正确评估
我在以下结构中有两列 A B 1 49 4922039670 我已经能够评估 =LEN(A1)如2 , =LEFT(B1,2)如49 , 和 =LEFT(B1,LEN(A1)
基于行首的 Vim 匹配
我有一个文件，其中一行可以以 + 开头, -或 * .在其中一些行之间可以有以字母或数字(一般文本)开头的行(也包含这些字符，但不在第 1 列中!)。知道这一点，设置匹配和突出显示机制的最简单方法是
正则表达式:匹配，但如果在评论中则不匹配
我有一个数据字段文件，其中可能包含注释，如下所示: id, data, data, data 101 a, b, c 102 d, e, f 103 g, h, i // has to do with
匹配 url 的正则表达式模式
我有以下模式:/^\/(?P.+)$/匹配:/url . 我的问题是它也匹配 /url/page ，如何忽略/在这个正则表达式中？该模式应该: 模式匹配:/url 模式不匹配:/url/page 提
r - R中多维度的聚类/匹配
我有一个非常庞大且复杂的数据集，其中包含许多对公司的观察。公司的一些观察是多余的，我需要制作一个键来将多余的观察映射到一个单独的观察。然而，判断他们是否真的代表同一家公司的唯一方法是通过各种变量的相似
xpath 匹配 - 查找值不在值集中的标签是否存在
我有以下 XML A B C 我想查找 if not(exists(//Record/subRecord
javascript - 匹配/不匹配的正则表达式上没有出现警报框？
我制作了一个正则表达式来验证潜在的比特币地址，现在当我单击报价按钮时，我希望根据正则表达式检查表单中输入的值，但它不起作用。 https://jsfiddle.net/arkqdc8a/5/ var
sql - 检查支架是否平衡/匹配
我有一些 MS Word 文档，我已将其全部内容转移到 SQL 表中。内容包含多个方括号和大括号，例如 [{a} as at [b],] {c,} {d,} etc 我需要进行检查以确保括号平衡/匹
JavaScript Unicode 匹配
我正在使用 Node.js 从 XML 文件读取数据。但是当我尝试将文件中的数据与文字进行比较时，它不匹配，即使它看起来相同: const parser: xml2js.Parser = new

首页

博学

6Ren·AI

商城

regex - MongoDB搜索和排序，具有匹配数和完全匹配