- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试清理 PostgreSQL 表中的数据,其中一些记录在 email_address
列中有大量脏话(结果,这些记录是由激动的用户输入的由于已修复的错误而感到沮丧):
┌───────────────────┐ │ email_address │ ├───────────────────┤ │ foo@go.bar.me.net │ │ foo@foo.com │ │ foo@example.com │ │ baz@example.com │ │ barred@qux.com │ └───────────────────┘
I'd like to build a query that annotates each row from the data table with a profanity score, and orders the records by the score, so that a human can go through the annotated data (presented in a web app) and take necessary action:
┌───────────────────┬───────┐ │ email_address │ score │ ├───────────────────┼───────┤ │ foo@foo.com │ 18 │ │ foo@go.bar.me.net │ 14 │ │ foo@example.com │ 9 │ │ baz@example.com │ 3 │ │ barred@qux.com │ 0 │ └───────────────────┴───────┘
The approach I'm taking is to build a list of regular expressions (now I have 2 problems...) and scores, whereby very profane words will contribute a large profanity score if that word is found in the email_address column. My profanities
table looks something like this:
┌──────────────────┬───────┐ │ profanity_regexp │ score │ ├──────────────────┼───────┤ │ foo │ 9 │ │ bar(?!red) │ 5 │ │ baz │ 3 │ └──────────────────┴───────┘
I've found that I can use a LATERAL
join over the regexp_matches
function to extract all profanities from each email_address
(but records with no profanities are discarded):
SELECT
data.email_address,
array_agg(matches)
FROM
data,
profanities p,
LATERAL regexp_matches(data.email_address, p.posix_regexp, 'gi') matches
GROUP BY
data.email_address;
这会产生以下结果:
┌───────────────────┬───────────────────┐ │ email_address │ profanities_found │ ├───────────────────┼───────────────────┤ │ foo@foo.com │ {{foo},{foo}} │ │ foo@example.com │ {{foo}} │ │ foo@go.bar.me.net │ {{foo},{bar}} │ │ baz@example.com │ {{baz}} │ └───────────────────┴───────────────────┘
I also figured out how to get an array of profanity score subtotals for each record with this SQL:
SELECT
data.email_address,
array(
SELECT score * (
SELECT COUNT(*)
FROM (SELECT
regexp_matches(data.email_address, p.posix_regexp, 'gi')
) matches
)
FROM profanities p
) prof
from data;
它正确地产生所有行(包括没有亵渎的行):
┌───────────────────┬──────────┐ │ email_address │ prof │ ├───────────────────┼──────────┤ │ foo@go.bar.me.net │ {9,5,0} │ │ foo@foo.com │ {18,0,0} │ │ foo@example.com │ {9,0,0} │ │ baz@example.com │ {0,0,3} │ │ barred@qux.com │ {0,0,0} │ └───────────────────┴──────────┘
如何对横向连接的结果求和以获得所需的输出?
我可以使用另一种策略来获得所需的结果吗?
我已经在 http://sqlfiddle.com/#!17/6685c/4 上发布了这个问题的实时代码 fiddle 。
最佳答案
向您的查询添加另一个选择。当前查询没问题,但您只需要对数组求和即可。
SELECT email_address,
(
SELECT SUM(s)
FROM
UNNEST(prof.profanity_score_subtotals) s
) AS sum_prof FROM (
SELECT
data.email_address,
array(
SELECT score * (
SELECT COUNT(*)
FROM (SELECT
regexp_matches(data.email_address, p.profanity_regexp, 'gi')
) matches
)
FROM profanities p
) profanity_score_subtotals
FROM data
) prof;
关于PostgreSQL:通过 LATERAL 连接关联的值总和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49146516/
最近几天,我们考虑使用 Solr 作为我们的首选搜索引擎。 我们需要的大多数功能都是开箱即用的,或者可以轻松配置。 然而,我们绝对需要的一项功能似乎在 Solr 中被很好地隐藏(或缺失)了。 我会试着
我是 Sequelize 的新手,并且一直在探索关联。我正在使用 mysql 5.6 并 Sequelize ^4.42.0。我正在尝试创建两个简单的表:PRJS 和 TASKS 并将一些数据插入这些
关联、聚合和组合之间有什么区别?请从实现的角度解释一下。 最佳答案 对于两个对象,Foo 和 Bar 可以定义关系 关联 - 我与一个对象有关系。 Foo 使用 Bar public class Fo
这两种 hasOne 语法有什么区别? class Project { ....... ............ static hasOne = Employee // static h
对于当前的项目,我想使用遗传算法 - 目前我查看了 jenetics 库。 如何强制某些基因相互依赖?我想将 CSS 映射到基因上,例如我有基因指示是否显示图像,以及如果它也是各自的高度和宽度。因此,
关联、聚合和组合之间有什么区别?请从实现的角度解释一下。 最佳答案 对于两个对象,Foo 和 Bar 可以定义关系 关联 - 我与一个对象有关系。 Foo 使用 Bar public class Fo
假设我有一个名为“学生”的表格,其中包含姓名、手机、电子邮件、首选类(class)、首选学校、性别、年龄、地址、资格、职称、家庭电话、工作电话等列 我想从 Students 表中选择数据并插入到 2
问题标题有点困惑。我有一级员工和一级项目。一名或多名员工正在从事一个或多个项目。在这个关联中,我只有一个从具有*多重性的员工类到具有*多重性的项目类的链接。现在有另一种实现。每个项目只有一名经理,属于
到目前为止,我有一个程序采用一组随机点、站点,并围绕这些点形成适当的 Voronoi 图,表示为角和边的图形。它还为我提供了 Delaunay 三角剖分作为另一个以所有站点为节点的图形(尽管我不知道这
实现IComMethodEvents时你得到三个事件。 OnMethodCall OnMethodException OnMethodReturn 我的目标是记录 COM+ 组件中每个方法的调用时间。
我正在处理这个问题。我正在创造数学问题,每一个都有回应。例如。 如果我的问题是关于“5x + 15 = 2 的结果?”,我将只等待一个答案(整数)。 如果我的问题是关于“给我这个形状的面积和许可”,我
我正在寻找一种数据结构来保存唯一元素的无序集合,它将支持以下操作 在集合中任意位置插入/删除元素 查询元素是否存在 访问一个随机元素 天真地,1 和 2 建议使用关联容器,例如unordered_se
是否可以在 LINQ 中使用类似 ContactAddress.Contact 的内容,而无需在 SQL Server 中在这两者之间创建外键关系(通过 Contact.Id ContactAddr
我一直在谷歌搜索,但不明白调用 javax.persistence.criteria.Subquery 和 Criteria API 的方法相关的结果是什么。 http://www.objectdb.
我正在关注 Chris McCord 的“Programming Phoenix”一书,在第 6 章中,在 User 之间创建了一个关系。和一个 Video . 尝试使用 mix phoenix.se
我在 XAML 中有一个 ItemsControl,我在其中为每个组显示一个扩展器,以便我可以展开/折叠该组。我想保持 IsExpanded 的状态属性(以及可能与组标题显示相关的其他设置)。通常你只
Oracle 11 中是否有内置方法来检查 varchar2 字段中值的相关性?例如,给定一个简单的表,如下所示: MEAL_NUM INGREDIENT --------------------
是否可以在没有 JPA 在数据库中创建外键的情况下设置多对一关联? 这些表归另一个系统所有,并以异步方式填充。因此我们不能在数据库中使用 FK。仍然,几乎总是,最终是一种关系。 @ManyToOne(
我一直在使用NHibernate,使用Fluent NHibernate进行映射。我解决了很多问题,并开始认为自己在nhibernate中经验丰富。 但是,此错误非常奇怪。 这是我的模型: p
我正在开发一个 Typescript Sequelize 项目,其中我的 /models/index.ts 文件具有以下“导入此目录中的所有模型”功能: var basename = path.bas
我是一名优秀的程序员,十分优秀!