- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在构建一个电子邮件过滤器,我需要一种方法来有效地将单个电子邮件与大量过滤器/规则相匹配。可以在以下任何字段上匹配电子邮件:
目前,我们的 PostgreSQL (9.1) 数据库中有超过 5000 个过滤器(并且还在不断增加),它们都定义在一个表中。每个过滤器可能有 1 个或多个用 Python 正则表达式填充的上述字段。
目前进行过滤的方式是选择所有过滤器并将它们加载到内存中。然后我们为每封电子邮件迭代它们,直到在所有非空白字段上找到正匹配。不幸的是,这意味着对于任何一封电子邮件,可能有多达 30,000 (5000 x 6) 次重新匹配操作。显然,随着添加更多过滤器,这不会扩展(实际上它已经不会)。
有更好的方法吗?
到目前为止我考虑过的选项:
将保存的 Python 正则表达式转换为 POSIX 风格的正则表达式,以利用 PostgreSQL 的 SIMILAR TO 表达式。这真的会更快吗?在我看来,它只是将负载转移到其他地方。
在每个用户的基础上定义过滤器。虽然这并不实用,因为我们的系统用户实际上受益于大量预定义的过滤器。
切换到基于文档的搜索引擎,如 Elasticsearch ,其中要过滤的第一封电子邮件被保存为规范表示。通过找到类似的电子邮件,我们可以缩小到特定的功能集进行测试并获得肯定的匹配。
切换到贝叶斯过滤器,这也将为我们提供一些机器学习能力,以检测相似的电子邮件或对现有电子邮件的更改,这些电子邮件仍然会以足够高的概率匹配以猜测它们是同一件事。这听起来很酷,但我不确定它的扩展性是否特别好。
是否有其他选项或方法可供考虑?
最佳答案
PostgreSQL 9.1 版中的三元组支持可能会满足您的需求。
http://www.postgresql.org/docs/9.1/interactive/pgtrgm.html
它几乎肯定会成为 9.2(计划于 2012 年夏季发布)中的可行解决方案,因为新版本知道如何使用三元组索引来快速匹配正则表达式。在我们的商店,我们发现三元组索引的速度非常好。
此外,如果您想进行“最近邻”搜索,即根据与搜索参数的相似性找到 K 个最佳匹配项,三元组索引非常棒——它实际上按顺序返回索引扫描中的行的“距离”。搜索 KNN-GiST 以获取评论。
关于python - 如何针对大型规则集(超过 5000 条并且还在不断增加)构建高效的电子邮件过滤器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10214580/
我需要在 nginx-ingress 版本上允许来自多个来源的请求:http://localhost:4200、http://localhost:4242 等1.7.1.但我无法对多个来源执行此操作,
我正在部署我使用 APIGILITY 开发的 API到 IIS。由于 IIS 不支持 .htaccess,我试图从 .htaccess 文件的内容创建 web.config 文件。我使用 IISv7.
我正在尝试更改上面 css 样式中的“宽度”规则。在“inspect element”中你可以看到宽度是1008px。我不希望它是 1008px 但它不会让我在 css 样式中更改它你可以看到它被“删
外部css赋值有2种方法,我用的是第一种;大多数网站使用第二种方法。我想知道我是否做错了! 第一种方法: 为几乎每个 css 规则创建一个类并在任何地方使用它们。 blah blah .f_
RDF使用 WEB 标识符 (URIs) 来标识资源,使用属性和属性值来描述资源 RDF 资源、属性和属性值 RDF使用 WEB 标识符来标识事物,并通过属性和属性值来描述资源。 关于资源、属性
我想挖掘特定的 rhs 规则。文档中有一个示例证明这是可能的,但仅适用于特定情况(如下所示)。先来一个数据集来说明我的问题: input {b=100002} 0.2500000 0.250000
我想让 nginx 从网站根目录(:http://localhost:8080/)提供一个静态文件,但它为我的代理通行证提供服务;它提供“/”规则而不是“=/”。 这是我的 nginx 配置的样子:
根据gnu make documentation , 如果一个规则通过一次调用生成多个目标(例如,一个配方执行一个带有多个输出文件的工具),你可以使用 '&:' 规则语法来告诉 make。但是,当在多
我已阅读Firebase Documentation并且不明白什么是 .contains()。 以下是文档中 Firebase 数据库的示例规则: { "rules": { "rooms"
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 6 年前。 Improv
我正在尝试做一些多态性练习,但我无法弄清楚这种多态性是如何工作的。我没有找到任何关于这种练习的深入信息。希望大家能给我一些解释。 练习1: class Top { public void m(
为了调试复杂的 XSLT 转换,我将其分为几个部分:首先构建 %.1.xml,然后使用它构建 %.2.xml ,最后构建 %.3.xml。一切正常,但如果我要求 Make 构建最后一个,Make 总是
我尝试了 hacerrank 的 slove 练习 Click我不知道如何添加这些规则: ► 它可以包含 4 个一组的数字,并用一个连字符“-”分隔。 ► 不得有 4 个或更多连续重复数字。 这是我的
我正在尝试编写一个小测验,我希望“再试一次”按钮遵循与“else”之前的“if”语句相同的规则 using System; public class Program { public stat
在我的 Spring/Boot Java 项目中,我有一组服务方法,例如以下一个: @Override public Decision create(String name, String descr
我正在阅读 Covariant virtual function .上面写着 假设 B::f 覆盖了虚函数 A::f。如果满足以下所有条件,A::f 和 B::f 的返回类型可能不同: 1) The
我工作的公司想要分发(在公共(public)链接中)具有内部签名的应用程序。我很确定 Apple 否认这种事情,但我在官方文档/契约(Contract)中没有找到任何相关信息。 有谁知道它到底是如何工
我是 CSS 新手。我观察到一个奇怪的 CSS 行为,其中一个元素具有以下 CSS 属性 .container .header{ color: #FFFFFF; font-size: 2em;
这个问题在这里已经有了答案: Is there a CSS selector for elements containing certain text? (21 个答案) 关闭 7 年前。
我有以下 CSS: workoutcal.css: .errorlist{ color:red; } 以下基本模板: base.html: {% load static %} {
我是一名优秀的程序员,十分优秀!