mongodb - 对电子邮件集合进行高效索引，以便按电子邮件域进行排序和过滤

转载作者：行者123 更新时间：2023-12-02 16:13:21

27

4

我使用 Mongoose 来保存电子邮件地址的集中集合，并且我还拥有用户和组织的集合。在我的应用程序中，我通过用户(经过验证的)电子邮件域将用户与组织关联起来。例如。 Acme Ltd 拥有域 acme.com 和 acme.co.uk，通过从使用这些域的所有电子邮件中进行选择，我可以整理一份唯一的关联用户列表。

用户可以拥有多个电子邮件地址(1 个主电子邮件地址 + 多个辅助电子邮件地址)。用户不能共享电子邮件地址(因此“verifiedBy”字段强制用户和电子邮件之间建立一对一的关系)。

我的架构(当前)如下:

const emailSchema = new Schema({
    _id: { 
        type: String,
        get: function idReverse(_id) { if(_id) return _id.split("@").reverse().join("@"); },
        set: (str) => { str.trim().toLowerCase().split("@").reverse().join("@") }
    },
    verifiedBy: { type: String, ref: 'User' }
}, options );

My question is whether it is worth reversing the domain parts of the email address in the setter, and unreversing them in the getter - as I've shown - in order that the underlying MongoDb index on _id can improve performance & make it easier to deal with the kinds of lookups I've described?

我已经考虑过的替代方案是:

按原样存储电子邮件并使用正则表达式按域部分选择用户(对我来说处理方面的成本很高)
将域部分存储在单独的字段中并为其建立索引(感觉很昂贵，因为有两个索引和重复的数据存储)

最佳答案

第一个选项实际上应该效果很好。根据$regex docs :

[...] Further optimization can occur if the regular expression is a “prefix expression”, which means that all potential matches start with the same string. [...]

A regular expression is a “prefix expression” if it starts with a caret (^) or a left anchor (\A), followed by a string of simple symbols. [...]

实验

让我们检查一下它如何在包含约 80 万个文档的集合上运行，其中约 25% 有电子邮件。分析的示例查询为 {email:/^gmail/}。

没有索引:

db.users.find({email: /^gmail/}).explain('executionStats').executionStats
// ...
//    "nReturned" : 2208,
//    "executionTimeMillis" : 250,
//    "totalKeysExamined" : 0,
//    "totalDocsExamined" : 202720,
// ...

使用 {email: 1} 索引:

db.users.find({email: /^gmail/}).explain('executionStats').executionStats
// ...
//    "nReturned" : 2208,
//    "executionTimeMillis" : 5,
//    "totalKeysExamined" : 2209,
//    "totalDocsExamined" : 2208,
// ...

正如我们所见，它绝对有帮助 - 无论是在执行时间还是检查的文档方面(检查的文档越多意味着可能需要更多的 IO 工作)。让我们看看如果我们忽略前缀并更直接地使用查询，它是如何工作的:{email:/gmail/}。

没有索引:

db.users.find({email: /gmail/}).explain('executionStats').executionStats
// ...
//    "nReturned" : 2217,
//    "executionTimeMillis" : 327,
//    "totalKeysExamined" : 0,
//    "totalDocsExamined" : 202720,
// ...

使用 {email: 1} 索引:

db.users.find({email: /gmail/}).explain('executionStats').executionStats
// ...
//    "nReturned" : 2217,
//    "executionTimeMillis" : 210,
//    "totalKeysExamined" : 200616,
//    "totalDocsExamined" : 2217,
// ...

最后，索引有很大帮助，特别是在执行前缀查询时。看起来带前缀的查询足够快，可以在单个字段中保持原样。单独的字段可能可以更好地利用索引(使用它!)，但我认为 5 毫秒就足够了。

一如既往，我强烈建议您对数据进行测试并查看其性能，因为数据特征可能会影响性能。

关于mongodb - 对电子邮件集合进行高效索引，以便按电子邮件域进行排序和过滤，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59612714/

27

4

0

文章推荐： java - imread 没有从 Linux 读取 Java Android 上的现有图像

文章推荐： python - OpenCV不在Docker内部显示图像

grails - 为什么IP(域)地址重定向到localhost而不是Grails中的IP(域)
这是我的本地域名 http://10.10.1.101/uxsurvey/profile/dashboard 在 Controller 中，我为用户列表设置了一个操作 redirect(control
dns - 规范 URL 的 www 域 IP 地址和非 www 域 IP 地址
要处理 Canonical URL，最佳做法是执行 301 重定向还是更好地为 www 和非 www 域使用相同的 IP 地址？例如: 想要的规范 URL/域是 http://example.com
内网之工作组、域分析
1 内网基础内网/局域网（Local Area Network，LAN），是指在某一区域内有多台计算机互联而成的计算机组，组网范围通常在数千米以内。在局域网中，可以实现文件管理、应用软件共享、打印机
内网之工作组、域分析
1 内网基础内网/局域网（Local Area Network，LAN），是指在某一区域内有多台计算机互联而成的计算机组，组网范围通常在数千米以内。在局域网中，可以实现文件管理、应用软件共享、打印机
用于物理上分离的托管服务器的 Weblogic 域
我想创建一个 weblogic 集群，其中有两个托管服务器，每个服务器在物理上独立的远程计算机上运行根据weblogic文档 All Managed Servers in a cluster mus
Grails 域 - 多个多对多关系
我正在运行 grails 3.1.4，但在创建允许我将多个域对象绑定(bind)到其他几个域对象的模式时遇到了问题。作为我正在尝试做的一个例子: 我有三个类(class)。书籍、作者和阅读列表。作者
ios - 域@count查询问题
我试图使用@count函数来根据它获取数据，但是在没有崩溃报告的情况下它以某种方式崩溃了。这是代码 class PSMedia: Object { @objc dynamic var id
PostgreSQL 域 : no numbers
有谁知道是否有办法只输入字母字符而不输入数字？我想过这样的事情 CREATE DOMAIN countryDomain AS VARCHAR(100) CHECK( VALUE ??? );
具有子字典匹配的 JavaScript 域
我的代码: const checkoutUrl = 'https://example.com/checkout/*' window.onload = startup() function st
PHP setcookie 域
一些不是我编写的应用程序，也不是用 PHP 编写的，它为域 www.example.com 创建了一个 cookie。我正在尝试替换该 cookie。所以在 PHP 中我做到了: setcookie
oauth - 什么是 oauth 域
什么是 oauth 域？是否有任何免费的 oauth 服务？我可以将它用于 StackApps registration 吗？？我在谷歌上搜索了很多，但找不到答案。最佳答案这是redirect_
regex - 电子邮件正则表达式将如何处理新的 unicode 域？
自从 In October 2009, the Internet Corporation for Assigned Names and Numbers (ICANN) approved the cre
apache - 更改 Cookie 域
我使用 apache 作为我的应用程序 Web 服务器的代理，并希望即时更改与 sessionid cookie 关联的域名。该cookie有一个与之关联的.company.com域，我想使用apa
cloudflare - 是否可以仅在cloudflare上托 pipe 域
我只想托管一个子域到cloudflare。我不想将主域名的域名服务器更改为他们的域名服务器。真的有可能吗？最佳答案是的，这是可能的，但是需要通过CloudFlare合作伙伴进行设置，或者您需要采用
unix - AF_UNIX 域 - 为什么只使用本地文件名？
When using socket in the UNIX domain, it is advisable to use path name for the directory directory m
grails - 如何实现 "remote"域？
想象两个共享一个域类的 Grails 应用程序。也许是 Book 域类。一个应用程序被标识为数据的所有者，一个应用程序必须访问域数据。类似于亚马逊和亚马逊网络服务。我想拥有的应用程序将使用普通的域
JavaScript 正则表达式 - 域 URL
我有一个包含字段“URL”的表单。第一部分需要用户在文本框中填写。第二部分是预定义的，显示在文本框的右侧。例如，用户在文本框中输入“test”。第二部分预定义为“.example.com”。因此，总
Azure 域 Controller 关闭释放
如果我要关闭并取消分配 azure 中的域 Controller ，从而生成新的 vm Generationid，我需要采取哪些步骤来恢复它？最佳答案 what steps do I need to
azure - 更改免费试用帐户上的 Azure 域
我想尝试使用 Azure 作为托管提供商(我有一个域)。我读过那篇文章https://learn.microsoft.com/en-us/azure/app-service-web/web-sites
windows - 从Docker容器访问Windows文件共享(域)内的伪像
所以.... 我想知道是否有人可以在这方面协助我？基本上，我已经创建了一个自托管的Docker容器，用作构建代理(Azure DevOps) 现在，我已经开始测试代理，并且由于我们的放置文件夹位于W

首页

博学

6Ren·AI

商城

mongodb - 对电子邮件集合进行高效索引，以便按电子邮件域进行排序和过滤

实验