algorithm - Delta E (CIE Lab) 在 SQL 中计算和排序的性能-6ren

algorithm - Delta E (CIE Lab) 在 SQL 中计算和排序的性能

转载作者：塔克拉玛干更新时间：2023-11-03 02:46:41

我有一个数据库表，其中每一行都是一种颜色。我的目标:给定输入颜色，计算其与 DB 表中每种颜色的距离，并按该距离对结果进行排序。或者，作为用户故事陈述:当我选择一种颜色时，我希望看到与我选择的颜色最相似的颜色列表，最接近的匹配位于列表顶部。

我知道，为了做到这一点，各种 Delta E (CIE 实验室)公式 are the best choice .我找不到公式的任何原生 SQL 实现，所以我编写了自己的 Delta E CIE 1976 的 SQL 版本。和 Delta E CIE 2000 .我根据 python-colormath 生成的结果验证了公式的 SQL 版本的准确性。实现。

1976 年的公式很容易用 SQL 或任何其他语言编写，因为它是一个简单的欧几里得距离计算。对于我来说，它在任何大小的数据集上都表现得又好又快(在一个有 100,000 行的颜色表上进行了测试，查询时间不到 1 秒)。

相比之下，2000 年的公式非常冗长且复杂。我设法在 SQL 中实现了它，但它的性能不是很好:查询 10,000 行大约需要 5 秒，查询 100,000 行大约需要 1 分钟。

我写了一个 example app called colorsearchtest (在 Python/Flask/Postgres 中)，玩弄我的实现(和我 set up a demo on Heroku )。如果您试用这个应用程序，您可以清楚地看到 1976 年和 2000 年 Delta E 查询之间的性能差异。

这是颜色表的架构(对于每种颜色，它将各自的 RGB 和 Lab 表示形式存储为三个数值):

CREATE TABLE color (
    id integer NOT NULL,
    rgb_r integer,
    rgb_g integer,
    rgb_b integer,
    lab_l double precision,
    lab_a double precision,
    lab_b double precision
);

这是表中的一些数据(所有只是随机颜色，由我的应用程序中的脚本生成):

INSERT INTO color (id, rgb_r, rgb_g, rgb_b, lab_l, lab_a, lab_b)
VALUES (902, 164, 214, 189, 81.6521019943304793,
        -21.2561872439361323, 7.08354581694699004);

INSERT INTO color (id, rgb_r, rgb_g, rgb_b, lab_l, lab_a, lab_b)
VALUES (903, 113, 229, 64, 81.7930860963098212,
        -60.5865728472875205, 66.4022741184551819);

INSERT INTO color (id, rgb_r, rgb_g, rgb_b, lab_l, lab_a, lab_b)
VALUES (904, 65, 86, 78, 34.6593864327796624,
        -9.95482220634028003, 2.02661293272071719);

...

这是我正在使用的 Delta E CIE 2000 SQL 函数:

CREATE OR REPLACE FUNCTION
DELTA_E_CIE2000(double precision, double precision,
                double precision, double precision,
                double precision, double precision,
                double precision, double precision,
                double precision)
RETURNS double precision
AS $$

WITH
    c AS (SELECT
            (CAST($1 AS VARCHAR) || ',' ||
            CAST($2 AS VARCHAR) || ',' ||
            CAST($3 AS VARCHAR) || ',' ||
            CAST($4 AS VARCHAR) || ',' ||
            CAST($5 AS VARCHAR) || ',' ||
            CAST($6 AS VARCHAR))
        AS lab_pair_str,
            (($1 + $4) /
                2.0)
        AS avg_lp,
            SQRT(
                POW($2, 2.0) +
                POW($3, 2.0))
        AS c1,
            SQRT(
                POW(($5), 2.0) +
                POW(($6), 2.0))
        AS c2),
    gs AS (SELECT
            c.lab_pair_str,
            (0.5 *
                (1.0 - SQRT(
                    POW(((c.c1 + c.c2) / 2.0), 7.0) / (
                        POW(((c.c1 + c.c2) / 2.0), 7.0) +
                        POW(25.0, 7.0)))))
        AS g
        FROM c
        WHERE c.lab_pair_str = (
            CAST($1 AS VARCHAR) || ',' ||
            CAST($2 AS VARCHAR) || ',' ||
            CAST($3 AS VARCHAR) || ',' ||
            CAST($4 AS VARCHAR) || ',' ||
            CAST($5 AS VARCHAR) || ',' ||
            CAST($6 AS VARCHAR))),
    ap AS (SELECT
            gs.lab_pair_str,
            ((1.0 + gs.g) * $2)
        AS a1p,
            ((1.0 + gs.g) * $5)
        AS a2p
        FROM gs
        WHERE gs.lab_pair_str = (
            CAST($1 AS VARCHAR) || ',' ||
            CAST($2 AS VARCHAR) || ',' ||
            CAST($3 AS VARCHAR) || ',' ||
            CAST($4 AS VARCHAR) || ',' ||
            CAST($5 AS VARCHAR) || ',' ||
            CAST($6 AS VARCHAR))),
    cphp AS (SELECT
            ap.lab_pair_str,
            SQRT(
                POW(ap.a1p, 2.0) +
                POW($3, 2.0))
        AS c1p,
            SQRT(
                POW(ap.a2p, 2.0) +
                POW($6, 2.0))
        AS c2p,
            (
                DEGREES(ATAN2($3, ap.a1p)) + (
                    CASE
                        WHEN DEGREES(ATAN2($3, ap.a1p)) < 0.0
                        THEN 360.0
                        ELSE 0.0
                        END))
        AS h1p,
            (
                DEGREES(ATAN2($6, ap.a2p)) + (
                    CASE
                        WHEN DEGREES(ATAN2($6, ap.a2p)) < 0.0
                        THEN 360.0
                        ELSE 0.0
                        END))
        AS h2p
        FROM ap
        WHERE ap.lab_pair_str = (
            CAST($1 AS VARCHAR) || ',' ||
            CAST($2 AS VARCHAR) || ',' ||
            CAST($3 AS VARCHAR) || ',' ||
            CAST($4 AS VARCHAR) || ',' ||
            CAST($5 AS VARCHAR) || ',' ||
            CAST($6 AS VARCHAR))),
    av AS (SELECT
            cphp.lab_pair_str,
            ((cphp.c1p + cphp.c2p) /
                2.0)
        AS avg_c1p_c2p,
            (((CASE
                WHEN (ABS(cphp.h1p - cphp.h2p) > 180.0)
                THEN 360.0
                ELSE 0.0
                END) +
              cphp.h1p +
              cphp.h2p) /
                2.0)
        AS avg_hp
        FROM cphp
        WHERE cphp.lab_pair_str = (
            CAST($1 AS VARCHAR) || ',' ||
            CAST($2 AS VARCHAR) || ',' ||
            CAST($3 AS VARCHAR) || ',' ||
            CAST($4 AS VARCHAR) || ',' ||
            CAST($5 AS VARCHAR) || ',' ||
            CAST($6 AS VARCHAR))),
    ts AS (SELECT
            av.lab_pair_str,
            (1.0 -
                0.17 * COS(RADIANS(av.avg_hp - 30.0)) +
                0.24 * COS(RADIANS(2.0 * av.avg_hp)) +
                0.32 * COS(RADIANS(3.0 * av.avg_hp + 6.0)) -
                0.2 * COS(RADIANS(4.0 * av.avg_hp - 63.0)))
        AS t,
            ((
                    (cphp.h2p - cphp.h1p) +
                    (CASE
                        WHEN (ABS(cphp.h2p - cphp.h1p) > 180.0)
                        THEN 360.0
                        ELSE 0.0
                        END))
                -
                (CASE
                    WHEN (cphp.h2p > cphp.h1p)
                    THEN 720.0
                    ELSE 0.0
                    END))
        AS delta_hlp
        FROM av
        INNER JOIN cphp
        ON av.lab_pair_str = cphp.lab_pair_str
        WHERE av.lab_pair_str = (
            CAST($1 AS VARCHAR) || ',' ||
            CAST($2 AS VARCHAR) || ',' ||
            CAST($3 AS VARCHAR) || ',' ||
            CAST($4 AS VARCHAR) || ',' ||
            CAST($5 AS VARCHAR) || ',' ||
            CAST($6 AS VARCHAR))),
    d AS (SELECT
            ts.lab_pair_str,
            ($4 - $1)
        AS delta_lp,
            (cphp.c2p - cphp.c1p)
        AS delta_cp,
            (2.0 * (
                SQRT(cphp.c2p * cphp.c1p) *
                SIN(RADIANS(ts.delta_hlp) / 2.0)))
        AS delta_hp,
            (1.0 + (
                (0.015 * POW(c.avg_lp - 50.0, 2.0)) /
                SQRT(20.0 + POW(c.avg_lp - 50.0, 2.0))))
        AS s_l,
            (1.0 + 0.045 * av.avg_c1p_c2p)
        AS s_c,
            (1.0 + 0.015 * av.avg_c1p_c2p * ts.t)
        AS s_h,
            (30.0 * EXP(-(POW(((av.avg_hp - 275.0) / 25.0), 2.0))))
        AS delta_ro,
            SQRT(
                (POW(av.avg_c1p_c2p, 7.0)) /
                (POW(av.avg_c1p_c2p, 7.0) + POW(25.0, 7.0)))
        AS r_c
        FROM ts
        INNER JOIN cphp
        ON ts.lab_pair_str = cphp.lab_pair_str
        INNER JOIN c
        ON ts.lab_pair_str = c.lab_pair_str
        INNER JOIN av
        ON ts.lab_pair_str = av.lab_pair_str
        WHERE ts.lab_pair_str = (
            CAST($1 AS VARCHAR) || ',' ||
            CAST($2 AS VARCHAR) || ',' ||
            CAST($3 AS VARCHAR) || ',' ||
            CAST($4 AS VARCHAR) || ',' ||
            CAST($5 AS VARCHAR) || ',' ||
            CAST($6 AS VARCHAR))),
    r AS (SELECT
            d.lab_pair_str,
            (-2.0 * d.r_c * SIN(2.0 * RADIANS(d.delta_ro)))
        AS r_t
        FROM d
        WHERE d.lab_pair_str = (
            CAST($1 AS VARCHAR) || ',' ||
            CAST($2 AS VARCHAR) || ',' ||
            CAST($3 AS VARCHAR) || ',' ||
            CAST($4 AS VARCHAR) || ',' ||
            CAST($5 AS VARCHAR) || ',' ||
            CAST($6 AS VARCHAR)))
SELECT
        SQRT(
            POW(d.delta_lp / (d.s_l * $7), 2.0) +
            POW(d.delta_cp / (d.s_c * $8), 2.0) +
            POW(d.delta_hp / (d.s_h * $9), 2.0) +
            r.r_t *
            (d.delta_cp / (d.s_c * $8)) *
            (d.delta_hp / (d.s_h * $9)))
    AS delta_e_cie2000
FROM          r
INNER JOIN    d
ON            r.lab_pair_str = d.lab_pair_str
WHERE         r.lab_pair_str = (
          CAST($1 AS VARCHAR) || ',' ||
          CAST($2 AS VARCHAR) || ',' ||
          CAST($3 AS VARCHAR) || ',' ||
          CAST($4 AS VARCHAR) || ',' ||
          CAST($5 AS VARCHAR) || ',' ||
          CAST($6 AS VARCHAR))

$$

LANGUAGE SQL
IMMUTABLE
RETURNS NULL ON NULL INPUT;

(我最初使用大约 10 级深度的嵌套子查询编写此函数，但后来我重新编写它以使用 WITH 语句，即 Postgres CTE。新版本更具可读性，性能与旧版本相似。你可以看到 both versions in the code。)

定义函数后，我在这样的查询中使用它:

SELECT        c.rgb_r,
              c.rgb_g,
              c.rgb_b,
        DELTA_E_CIE2000(73.9206633504, -50.2996953437,
                        23.8259166281,
                        c.lab_l, c.lab_a, c.lab_b,
                        1.0, 1.0, 1.0)
    AS de2000
FROM          color c
ORDER BY      de2000
LIMIT         100;

所以，我的问题是:有什么方法可以提高 DELTA_E_CIE2000 的性能吗？函数，使其可实时用于非平凡的数据集？或者，考虑到公式的复杂性，它是否会尽可能快？

根据我在演示应用程序中所做的测试，我想说，对于在网站上进行简单“相似颜色”搜索的用例，1976 年和 2000 年函数之间的结果准确性差异实际上可以忽略不计。也就是说，我已经确信，对于我的需要，1976 年的公式“足够好”。但是，2000 函数确实返回了稍微好一点的结果(很大程度上取决于输入颜色在 Lab 空间中的位置)，实际上，我只是好奇它是否可以进一步加速。

最佳答案

两件事:1)您没有完全使用数据库，2)您的问题是自定义 PostgreSQL 扩展的一个很好的例子。这就是为什么。

您仅将数据库用作存储，将颜色存储为浮点数。在您当前的配置中，无论查询类型如何，数据库都必须检查所有值(进行顺序扫描)。这意味着大量的 IO 和针对少数返回匹配项的大量计算。您正在尝试找到最接近的 N 种颜色，因此有几种可能性可以避免对所有数据执行计算。

简单的改进

最简单的是将您的计算限制在较小的数据子集上。如果组件差异更大，您可以假设差异会更大。如果您可以找到组件之间的安全差异，结果总是不合适的，您可以使用带 btree 索引的 ranged WHERE 完全排除这些颜色。但是，由于 L*a*b 颜色空间的性质，这可能会使您的结果恶化。

首先创建索引:

CREATE INDEX color_lab_l_btree ON color USING btree (lab_l);
CREATE INDEX color_lab_a_btree ON color USING btree (lab_a);
CREATE INDEX color_lab_b_btree ON color USING btree (lab_b);

然后我调整了您的查询以包含一个 WHERE 子句以仅过滤颜色，其中任何组件最多相差 20 个。

更新:再看一遍，添加 20 的限制很可能会使结果恶化，因为我在空间中发现了至少一个点，这适用于:

SELECT 
    c.rgb_r, c.rgb_g, c.rgb_b,
    DELTA_E_CIE2000(
        25.805780252087963, 53.33446637366859, -45.03961353720049, 
        c.lab_l, c.lab_a, c.lab_b,
        1.0, 1.0, 1.0) AS de2000
FROM color c 
WHERE 
    c.lab_l BETWEEN 25.805780252087963 - 20 AND 25.805780252087963 + 20 
    AND c.lab_a BETWEEN 53.33446637366859 - 20 AND 53.33446637366859 + 20 
    AND c.lab_b BETWEEN -45.03961353720049 - 20 AND -45.03961353720049 + 20 
ORDER BY de2000 ;

我用您的脚本在表格中填充了 100000 种随机颜色并进行了测试:

没有索引的时间:44006,851 毫秒

索引和范围查询时间:1293,092 毫秒

您可以将此 WHERE 子句添加到 delta_e_cie1976_query同样，在我的随机数据上，它会将查询时间从 ~110 毫秒降至 ~22 毫秒。

顺便说一句:我凭经验得到了 20 号:我尝试使用 10 条，但只得到 380 条记录，这似乎有点低，并且可能会排除一些更好的选择，因为限制是 100 条。使用 20 条，全套是 2900 行，一个可以相当确保最接近的匹配将在那里。我没有详细研究 DELTA_E_CIE2000 或 L*a*b* 颜色空间，因此阈值可能需要沿着不同的组件进行调整才能真正做到这一点，但排除不感兴趣的数据的原则仍然成立。

用 C 重写 Delta E CIE 2000

正如您已经说过的，Delta E CIE 2000 很复杂，而且相当不适合在 SQL 中实现。它目前在我的笔记本电脑上每次通话使用大约 0.4 毫秒。在 C 中实现它应该会大大加快速度。 PostgreSQL 将 SQL 函数的默认成本分配为 100，将 C 函数分配为 1。我猜这是基于真实经验。

更新:由于这也引起了我的困扰，我将 C 中 colormath 模块中的 Delta E 函数重新实现为 PostgreSQL 扩展，可在 PGXN 上获得。 .有了这个，我可以看到 CIE2000 在查询具有 100k 条记录的表中的所有记录时，加速了大约 150 倍。

使用这个 C 函数，我得到 100k 颜色的查询时间在 147 毫秒到 160 毫秒之间。加上额外的 WHERE，查询时间约为 20 毫秒，这对我来说似乎完全可以接受。

最佳但先进的解决方案

但是，由于您的问题是 3 维空间中的 N 个最近邻搜索，您可以使用 PostgreSQL since version 9.1 中的 K-Nearest-Neighbor Indexing .

为此，您需要将 L*a*b* 组件放入 cube .此扩展尚不支持距离运算符 ( it's in the works)，但即使支持，它也不支持 Delta E 距离，您需要将其重新实现为 C 扩展。

这意味着实现 GiST 索引运算符类( btree_gist PostgreSQL extension 在 contrib 中执行此操作)以支持根据 Delta E 距离进行索引。好的部分是您可以为不同版本的 Delta E 使用不同的运算符，例如。 <-> Delta E CIE 2000 和 <#>对于 Delta E CIE 1976，查询将是 really really fast 即使使用 Delta E CIE 2000，也适用于小 LIMIT。

最后，它可能取决于您的(业务)要求和约束是什么。

关于algorithm - Delta E (CIE Lab) 在 SQL 中计算和排序的性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31798883/

文章推荐： redirect - 如何使用参数对单个 URL 进行 301 永久重定向

文章推荐： string - 将字符串与拼写错误匹配的快速方法

排序
我正在尝试对每个条目有多个值的关联数组进行排序。例如 [0] => stdClass Object ( [type] => node [sid] => 158 [score] => 0.059600
mysql - 排序 - 按日期 ASC 排序
我在 mysql 中有“日期”列以这种格式保存日期 2014 年 9 月 17 日(日-月-年) 我需要对它们进行升序排序，所以我使用了这个命令: SELECT * FROM table ORDER
MySQL 排序，限制为 MS SQL 排序
我目前正在将 MySQL 存储过程重写为 MS SQL 存储过程，但遇到了问题。在 MySQL 存储过程中，有一个游标，它根据最近的日期 (effdate) 选择一个值并将其放入变量 (thestt
java - 通过从 mysql 中选择(排序)排序
我想要 gwt r.QuestionId- 排序。但是我得到未排序的 QuestionId 尽管我提到了 QuestionId ASC 的顺序。 SELECT r.QuestionId,
Python scandir() 排序\POSIX readdir 排序
我有一个关于在 scandir 函数中排序的基本问题。到目前为止，我阅读了 POSIX readdir 的手册页，但没有找到有关订购保证的具体信息。但是当我遍历大目录(无法更改，只读)时，我在多个系
sql - 排序、排序、筛选 SQL Server 的复杂组合
基本上我必须从 SQL 数据库中构建项目列表，但是用户可以选择对 7 个过滤器的任意组合进行过滤，也可以选择要排序的列以及按方向排序。正如您可以想象的那样，这会以大量不同的组合进行编码，并且数据集非
mysql - 按日期 ASC 排序，但组内按 DESC 排序
我有两张 table 。想象第一个是一个目录，包含很多文件(第二个表)。第二个表(文件)包含修改日期。现在，我想选择所有目录并按修改日期 ASC 对它们进行排序(因此，最新的修改最上面)。我不想显
mysql - 首先按(条件)排序，然后按(条件)排序
我想先根据用户的状态然后根据用户名来排序我的 sql 请求。该状态由 user_type 列设置: 1=活跃，2=不活跃，3=创始人。我会使用此请求来执行此操作，但它不起作用，因为我想在“活跃”成员
c++ - sort a, b, c是否等同于sort c；排序 b;排序？
在 C++ 中，我必须实现一个“类似 Excel/Access”(引用)的查询生成器，以允许对数据集进行自定义排序。如果您在 Excel 中使用查询构建器或 SQL 中的“ORDER BY a, b,
MongoDB 按字段 A 排序，如果字段 B != null 否则按字段 C 排序
我面临这样的挑战: 检索按字段 A 排序的文档如果字段 B 存在/不为空 . 否则按字段排序 C. 在 SQL 世界中，我会做两个查询并创建一个 UNION SELECT，但我不知道如何从 Mon
dart - 在 Dart 中，如何仅使用级联或链式调用来干净地映射/排序/折叠/排序/扩展？
我想对源列表执行以下操作: map 列表排序折叠排序展开列表其中一些方法(例如map和toList)是可链接的，因为它们返回非空对象。但是，sort 方法返回 void，因为它对 List
linux - 有人可以解释重新格式化 awk () | 输出的最佳方法吗？排序 | uniq-c |排序-rg？
我制作了一个用于分析 Windows 日志消息编号的脚本。 uniq -c 数字的输出很难预测，因为根据数字的大小会有不同的空白。此时，我手动删除了空白。这是对消息进行排序和计数的命令: cat n
python - 在 Python 字典中按值(降序)排序，然后按键(升序)排序
我有以下词典: mydict1 = {1: 11, 2: 4, 5: 1, 6: 1} mydict2 = {1: 1, 5: 1} 对于它们中的每一个，我想首先按值(降序)排序，然后按键(升序)排序
delphi - 如何使用多个比较器在 TObjectList<> 中进行类似于 Excel 的按 A 排序，然后按 B 排序
我刚刚开始使用泛型，目前在对多个字段进行排序时遇到问题。案例: 我有一个 PeopleList 作为 TObjectList我希望能够通过一次选择一个排序字段，但尽可能保留以前的排序来制作类似 Ex
sql - 如果 Column1 不为空，则按 Column1 排序，否则按 Column2 排序
有没有办法在 sql 中组合 ORDER BY 和 IS NULL 以便我可以在列不为空时按列排序，但如果它为null，按另一列排序？最佳答案类似于: ORDER BY CASE WHEN
mysql - 排序 mysql 结果。按 col1 排序，按 col2 分组
我有一个包含 2 列“id”和“name”的表。 id 是常规的自动增量索引，name 只是 varchar。 id name 1 john 2 mary 3 pop 4 mary 5 j
node.js - API 分页、过滤、排序 VS CLIENT 分页、过滤、排序
场景网站页面有一个带有分页、过滤、排序功能的表格 View 。表中的数据是从REST API服务器获取的，数据包含数百万条记录。数据库 REST API 服务器 Web 服务器浏览器问
objective-c - 获取 NSDictionary 键的 NSArray，按 Value 排序，然后按 Key 排序
假设我有一本字典，其中的键(单词)和值(分数)如下: GOD 8 DONG 16 DOG 8 XI 21 我想创建一个字典键(单词)的 NSArray，首先按分数排序，然后按字
mysql - sphinx 搜索查询前 20 个按标题 WEIGHT 排序，后 20 个按标题 ASC 排序，无重复输出
如何在 sphinx 上通过 sql 命令选择前 20 行按标题 WEIGHT 排序，接下来 20 行按标题 ASC 排序(总共 40 个结果)，但不要给出重复的标题输出。我尝试了这个 sql 命令
SQLite - 排序
我有一个奇怪的问题，当从 SQLite 数据库中选择信息并根据日期排序时，返回的结果无效。我的SQL语句是这样的: Select pk from usersDates order by dateti

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

algorithm - Delta E (CIE Lab) 在 SQL 中计算和排序的性能