Mysql 匹配 "Same"邮件-6ren

Mysql 匹配 "Same"邮件

转载作者：可可西里更新时间：2023-11-01 08:09:00

26

4

我有一个包含 2 列 email 和 id 的表格。我需要找到密切相关的电子邮件。例如:

john.smith12@example.com

和

john.smith12@some.subdomains.example.com

这些应该被认为是相同的，因为用户名 (john.smith12) 和最顶级的域 (example.com) 是相同的。它们目前在我的表中是 2 个不同的行。 ~~我已经编写了下面的表达式，它应该进行比较，但执行起来需要几个小时(可能/可能是因为正则表达式)。有没有更好的写法:~~

select c1.email, c2.email from table as c1 join table as c2 on ( c1.leadid <> c2.leadid and c1.email regexp replace(replace(c2.email, '.', '[.]'), '@', '@[^@]*'))
此查询的解释返回为:

id, select_type, table, type, possible_keys, key, key_len, ref, rows, Extra 1, SIMPLE, c1, ALL, NULL, NULL, NULL, NULL, 577532, NULL 1, SIMPLE, c2, ALL, NULL, NULL, NULL, NULL, 577532, Using where; Using join buffer (Block Nested Loop)
创建表是:

CREATE TABLE `table` ( `ID` int(11) NOT NULL AUTO_INCREMENT, `Email` varchar(100) DEFAULT NULL, KEY `Table_Email` (`Email`), KEY `Email` (`Email`) ) ENGINE=InnoDB AUTO_INCREMENT=667020 DEFAULT CHARSET=latin1
我猜是因为正则表达式没有使用索引。
正则表达式输出为:

john[.]smith12@[^@]*example[.]com
应该匹配两个地址。
更新:
我已经将 on 修改为:

on (c1.email <> '' and c2.email <> '' and c1.leadid <> c2.leadid and substr(c1. email, 1, (locate('@', c1.email) -1)) = substr(c2. email, 1, (locate('@', c2.email) -1)) and substr(c1.email, locate('@', c1.email) + 1) like concat('%', substr(c2.email, locate('@', c2.email) + 1)))
并且使用这种方法的解释至少使用了索引。

id, select_type, table, type, possible_keys, key, key_len, ref, rows, Extra 1, SIMPLE, c1, range, table_Email,Email, table_Email, 103, NULL, 288873, Using where; Using index 1, SIMPLE, c2, range, table_Email,Email, table_Email, 103, NULL, 288873, Using where; Using index; Using join buffer (Block Nested Loop)

~~到目前为止，这已经执行了 5 分钟，如果有很大的改进，将会更新。~~

更新 2:

我已经拆分了电子邮件，所以用户名是一列，域是一列。我以相反的顺序存储域，因此它的索引可以与尾随通配符一起使用。

CREATE TABLE `table` (
     `ID` int(11) NOT NULL AUTO_INCREMENT,
     `Email` varchar(100) DEFAULT NULL,
     `domain` varchar(100) CHARACTER SET utf8 DEFAULT NULL,
     `username` varchar(500) CHARACTER SET utf8 DEFAULT NULL,
     KEY `Table_Email` (`Email`),
     KEY `Email` (`Email`),
     KEY `domain` (`domain`)
    ) ENGINE=InnoDB AUTO_INCREMENT=667020 DEFAULT CHARSET=latin1

填充新列的查询:

update table
set username = trim(SUBSTRING_INDEX(trim(email), '@', 1)), 
domain = reverse(trim(SUBSTRING_INDEX(SUBSTRING_INDEX(trim(email), '@', -1), '.', -3)));

新查询:

select c1.email, c2.email, c2.domain, c1.domain, c1.username, c2.username, c1.leadid, c2.leadid
from table as c1
join table as c2
on (c1.email is not null and c2.email is not null and c1.leadid <> c2.leadid
    and c1.username = c2.username and c1.domain like concat(c2.domain, '%'))

新解释结果:

1, SIMPLE, c1, ALL, table_Email,Email, NULL, NULL, NULL, 649173, Using where
1, SIMPLE, c2, ALL, table_Email,Email, NULL, NULL, NULL, 649173, Using where; Using join buffer (Block Nested Loop)

从那个解释看来 domain 索引没有被使用。我还尝试使用 USE 强制使用，但这也没有用，导致没有使用索引:

select c1.email, c2.email, c2.domain, c1.domain, c1.username, c2.username, c1.leadid, c2.leadid
from table as c1
USE INDEX (domain)
join table as c2
USE INDEX (domain)
on (c1.email is not null and c2.email is not null and c1.leadid <> c2.leadid
    and c1.username = c2.username and c1.domain like concat(c2.domain, '%'))

用use解释:

1, SIMPLE, c1, ALL, NULL, NULL, NULL, NULL, 649173, Using where
1, SIMPLE, c2, ALL, NULL, NULL, NULL, NULL, 649173, Using where; Using join buffer (Block Nested Loop)

最佳答案

您告诉我们该表有 70 万行。

这并不多，但您正在将其连接到自身，因此在最坏的情况下，引擎必须处理 700K * 700K = 490 000 000 000 = 490B 行。

索引绝对可以提供帮助。

最佳索引取决于数据分布。

以下查询返回什么？

SELECT COUNT(DISTINCT username) 
FROM table

如果结果接近 700K，比如 100K，则意味着有很多不同的用户名，您最好关注它们，而不是 domain。如果结果很低，比如 100，则索引 username 不太可能有用。

我希望有很多不同的用户名，所以，我会在 username 上创建一个索引，因为查询使用简单的相等比较在该列上连接，而这个连接将极大地受益于这个指标。

要考虑的另一种选择是(username, domain) 上的复合索引，甚至覆盖(username, domain, leadid, email) 上的索引。索引定义中列的顺序很重要。

我会删除所有其他索引，这样优化器就无法做出其他选择，除非有其他查询可能需要它们。

很可能在表上定义一个主键也不会有什么坏处。

还有一件不太重要的事情需要考虑。您的数据真的有 NULL 吗？如果不是，则将列定义为 NOT NULL。此外，在许多情况下，最好使用空字符串而不是 NULL，除非您有非常具体的要求并且必须区分 NULL 和 ''。

查询会稍微简单一些:

select 
    c1.email, c2.email, 
    c1.domain, c2.domain, 
    c1.username, c2.username, 
    c1.leadid, c2.leadid
from 
    table as c1
    join table as c2
        on  c1.username = c2.username 
        and c1.domain like concat(c2.domain, '%')
        and c1.leadid <> c2.leadid

关于Mysql 匹配 "Same"邮件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51526159/

26

4

0

文章推荐： android - 具有不同布局的 ListView 行

文章推荐： android - 无法连接到 Android 中的相机服务

文章推荐： mysql - 计算当月的账单使用情况

Javascript - 邮件
我想在文本区域中向许多其他用户发送电子邮件。在名为内容的文本区域中，如果我键入星号包围的“用户”，我想让它们填写每个电子邮件的用户名(“@”之前的文本)。每封电子邮件中的每个用户名都会产生很多不同。然
使用模板的 php 邮件
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Problem when loading php file into variable (Load resu
带有中断数据库的 PHP 邮件
我正在从数据库中提取信息，并尝试将其作为电子邮件发送。将从数据库中拉取多行数据。这就是我的代码的样子... 所有的信息邮件都很好。我的问题是，我想保留中断。例如，在标题之后，我想中断一下，然后开始备
Java 邮件 |消息异常
当我使用我们使用 java 邮件的门户发送 TEXT 电子邮件时没有问题，但是，当我选择放置 HTML 内容并发送电子邮件时，会引发以下警报。花了几个小时搜索但没有有用的答案! 谁能帮忙电子邮件主题
Java 邮件。如何检查登录是否成功？
我有这个类，它处理 gmail 的登录。无论我输入什么电子邮件和密码，程序都会返回 session 。我不明白如何在返回 session 对象之前检查登录是否成功。 package mailActio
Java 邮件。回复消息分为消息和附件
我设置的短信作为文本文件附在信中。我不明白为什么会这样。 replied letter example public void sendEmail(MimeMessage message, Strin
非事件用户时的 PHP 邮件
所以我正在制作一个网络系统，这个想法是当用户关闭浏览器时它会向我发送一封电子邮件。目前，用户正在使用 Javascript Ajax 来让 PHP 更新数据库的当前时间。当时间超过 5 分钟时，我希望
产品过期时发送 PHP 邮件
我想发送邮件，当产品从之前、日期和之后过期时，在 php 中，我在 php 中使用了 datediff mysql 函数，但如果产品过期日期类似于 31-1-2012 ，则不同值是不适合我的编码，请帮
带变量的 php 邮件
我正在尝试设置一个邮件脚本，该脚本将首先从 mysql 运行一个简单的选择，并在消息中使用这些数组变量。然而，所有的变量并没有输出到消息体，只有一行变量。这是我的脚本: $sql1 = "SE
Android 邮件 API
我最近一直在努力研究这个问题。是否有我可以使用并添加到其中的 android API？我想为电子邮件应用程序制作一个插件，但我不想制作整个电子邮件应用程序。我非常想要一些已经可以处理发送和接收电子邮
php 邮件 - 特殊字符
嗨我有一个 PHP 西类牙文网站。在此邮件正文中包含一个主题“Solicitud de cotización”，但该主题出现在热门邮箱中，如 Solicitud de cotización 。但它在
php - 邮件()与PHP
我想写一个脚本，使用 php 自动向我的客户发送电子邮件我如何自动发送它，例如，如果他们输入他们的电子邮件。然后点击提交我想自动发送这封邮件其次，我的主机上是否需要 smtp 服务器？我可以在任
Java 邮件 - 附件和内联图像
今天早上我已经解决了一个问题: Java Mail, sending multiple attachments not working 这次我遇到了一个稍微复杂一点的问题:我想将附件和图片结合起来。
Java 邮件 : Session
下面是用于连接 IMAP 文件夹并对其执行操作的代码。所以我的问题是关于 javax.mail.Session 的，在这种情况下它会每秒重新创建一次(取决于 checkInbox() 的 hibern
Java 邮件 - 无法连接到主机
我正尝试按照 http://www.tutorialspoint.com/java/java_sending_email.htm 上的指南发送电子邮件 Java 应用程序当我尝试运行它时，从上面的链
Mysql 匹配 "Same"邮件
我有一个包含 2 列 email 和 id 的表格。我需要找到密切相关的电子邮件。例如: john.smith12@example.com 和 john.smith12@some.subdomains
PHP 邮件() 超时
首先是一些信息: Debian 压缩 PHP 5.3.3 带有 mod_cgi 的 PHP 在这种情况下，我绝对必须使用 mail()。对于我所有的其他项目，我已经使用 SMTP 邮件。我已将站点超
PHP 邮件 : What does -f do?
在对电子邮件主机的联系表单进行故障排除时，他们告诉我在 php 邮件功能的发件人地址中使用“-f”。 “-f”标志的作用是什么？为什么它可以解决允许发送电子邮件的问题？我阅读了一些文档，但不是很清楚。
PHP:邮件()与发送邮件
一个简单的问题:群发邮件哪个性能好？ mail() 函数或sendmail 流行的 PHP 列表管理器包使用哪个？最佳答案嗯，mail() 函数并不适合批量发送电子邮件，因为它会为您发送的每封
附件上传完成前发送的 PHP 邮件
我正在制作一个 PHP 表单，允许用户上传附件并将其发送到我的电子邮件。我一直在寻找很长一段时间才能做到。最后，我找到了这个。 http://www.shotdev.com/php/php-mail/

首页

博学

6Ren·AI

商城

Mysql 匹配 "Same"邮件