- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个带有 title
字段的 PostgreSQL 表,但这些标题通常在前面包含“The”或“An”,我需要一种方法来按字母顺序对这些记录进行排序,就像图书馆那样,在进行排序时忽略这些文章。
两个问题
在 SQL 中编写此 ORDER BY 表达式的最佳方法是什么?
如何在不将标题字段值的子字符串复制到“alphabetical_title”字段中并为其编制索引的情况下,在标题字段上构建和使用适当的索引?
我正在寻找为 PostgreSQL 量身定制的解决方案。谢谢。
最佳答案
您可以在表达式上添加索引:
create index on yourtable (natural_sort(title));
Postgres 将在适当的时候使用索引,并且不会实际计算 natural_sort(title)
-- 除非你也选择它。
也就是说(和 tsvector 字段非常相似)如果出于性能原因实际存储预先计算的结果,您将获得更高的性能。如果在上述情况下,Postgres 出于任何原因决定不使用该索引,则需要为考虑的每一行实际计算它,这将大大拖累您的查询。
无论哪种情况,都不要忘记数字:
http://www.codinghorror.com/blog/2007/12/sorting-for-humans-natural-sort-order.html
这里有两个函数可以帮助您开始自然排序:
/**
* @param text _str The input string.
* @return text The output string for consumption in natural sorting.
*/
CREATE OR REPLACE FUNCTION natsort(text)
RETURNS text
AS $$
DECLARE
_str text := $1;
_pad int := 15; -- Maximum precision for PostgreSQL floats
BEGIN
-- Bail if the string is empty
IF trim(_str) = ''
THEN
RETURN '';
END IF;
-- Strip accents and lower the case
_str := lower(unaccent(_str));
-- Replace nonsensical characters
_str := regexp_replace(_str, E'[^a-z0-9$¢£¥₤€@&%\\(\\)\\[\\]\\{\\}_:;,\\.\\?!\\+\\-]+', ' ', 'g');
-- Trim the result
_str := trim(_str);
-- @todo we'd ideally want to strip leading articles/prepositions ('a', 'the') at this stage,
-- but to_tsvector()'s default dictionary also strips stop words (e.g. 'all').
-- We're done if the string contains no numbers
IF _str !~ '[0-9]'
THEN
RETURN _str;
END IF;
-- Force spaces between numbers, so we can use regexp_split_to_table()
_str := regexp_replace(_str, E'((?:[0-9]+|[0-9]*\\.[0-9]+)(?:e[+-]?[0-9]+\\M)?)', E' \\1 ', 'g');
-- Pad zeros to obtain a reasonably natural looking sort order
RETURN array_to_string(ARRAY(
SELECT CASE
WHEN val !~ E'^\\.?[0-9]'
-- Not a number; return as is
THEN val
-- Do our best after expanding the number...
ELSE COALESCE(lpad(substring(val::numeric::text from '^[0-9]+'), _pad, '0'), '') ||
COALESCE(rpad(substring(val::numeric::text from E'\\.[0-9]+'), _pad, '0'), '')
END
FROM regexp_split_to_table(_str, E'\\s+') as val
WHERE val <> ''
), ' ');
END;
$$ IMMUTABLE STRICT LANGUAGE plpgsql COST 1;
COMMENT ON FUNCTION natsort(text) IS
'Rewrites a string so it can be used in natural sorting.
It''s by no means bullet proof, but it works properly for positive integers,
reasonably well for positive floats, and it''s fast enough to be used in a
trigger that populates an indexed column, or in an index directly.';
/**
* @param text[] _values The potential values to use.
* @return text The output string for consumption in natural sorting.
*/
CREATE OR REPLACE FUNCTION sort(text[])
RETURNS text
AS $$
DECLARE
_values alias for $1;
_sort text;
BEGIN
SELECT natsort(value)
INTO _sort
FROM unnest(_values) as value
WHERE value IS NOT NULL
AND value <> ''
AND natsort(value) <> ''
LIMIT 1;
RETURN COALESCE(_sort, '');
END;
$$ IMMUTABLE STRICT LANGUAGE plpgsql COST 1;
COMMENT ON FUNCTION sort(text[]) IS
'Returns natsort() of the first significant input argument.';
第一个函数的单元测试的示例输出:
public function testNatsort()
{
$this->checkInOut('natsort', array(
'<NULL>' => null,
'' => '',
'ABCde' => 'abcde',
'12345 12345' => '000000000012345 000000000012345',
'12345.12345' => '000000000012345.123450000000000',
'12345e5' => '000001234500000',
'.12345e5' => '000000000012345',
'1e10' => '000010000000000',
'1.2e20' => '120000000000000',
'-12345e5' => '- 000001234500000',
'-.12345e5' => '- 000000000012345',
'-1e10' => '- 000010000000000',
'-1.2e20' => '- 120000000000000',
'+-$¢£¥₤€@&%' => '+-$¢£¥₤€@&%',
'ÀÁÂÃÄÅĀĄĂÆ' => 'aaaaaeaaaaaae',
'ÈÉÊËĒĘĚĔĖÐ' => 'eeeeeeeeee',
'ÌÍÎÏĪĨĬĮİIJ' => 'iiiiiiiiiij',
'ÒÓÔÕÖØŌŐŎŒ' => 'oooooeoooooe',
'ÙÚÛÜŪŮŰŬŨŲ' => 'uuuueuuuuuu',
'ÝŶŸ' => 'yyy',
'àáâãäåāąăæ' => 'aaaaaeaaaaaae',
'èéêëēęěĕėð' => 'eeeeeeeeee',
'ìíîïīĩĭįıij' => 'iiiiiiiiiij',
'òóôõöøōőŏœ' => 'oooooeoooooe',
'ùúûüūůűŭũų' => 'uuuueuuuuuu',
'ýÿŷ' => 'yyy',
'ÇĆČĈĊ' => 'ccccc',
'ĎĐ' => 'dd',
'Ƒ' => 'f',
'ĜĞĠĢ' => 'gggg',
'ĤĦ' => 'hh',
'Ĵ' => 'j',
'Ķ' => 'k',
'ŁĽĹĻĿ' => 'lllll',
'ÑŃŇŅŊ' => 'nnnnn',
'ŔŘŖ' => 'rrr',
'ŚŠŞŜȘſ' => 'sssssss',
'ŤŢŦȚÞ' => 'ttttt',
'Ŵ' => 'w',
'ŹŽŻ' => 'zzz',
'çćčĉċ' => 'ccccc',
'ďđ' => 'dd',
'ƒ' => 'f',
'ĝğġģ' => 'gggg',
'ĥħ' => 'hh',
'ĵ' => 'j',
'ĸķ' => 'kk',
'łľĺļŀ' => 'lllll',
'ñńňņʼnŋ' => 'nnnnnn',
'ŕřŗ' => 'rrr',
'śšşŝșß' => 'sssssss',
'ťţŧțþ' => 'ttttt',
'ŵ' => 'w',
'žżź' => 'zzz',
'-_aaa--zzz--' => '-_aaa--zzz--',
'-:àáâ;-žżź--' => '-:aaa;-zzz--',
'-.à$â,-ž%ź--' => '-.a$a,-z%z--',
'--à$â--ž%ź--' => '--a$a--z%z--',
'-$à(â--ž)ź%-' => '-$a(a--z)z%-',
'#-à$â--ž?!ź-' => '-a$a--z?!z-',
));
关于postgresql - 如何按标题的字母顺序排序(忽略 The、An 等)并使用索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16401100/
我正在尝试设置我的 git 配置,以便我可以使用工作环境和个人环境。 这是我的 ~.gitconfig 文件的内容(碰巧 work 和 private 在 github 上): [url "git@
我有以下情况。我在 Sheet1 上有一个项目列表,我想将项目复制到 Sheet2 并排除特定项目。 假设我在 Sheet1 上有以下项目列表: 我想将“梨”单元格留在 Sheet2 上。 它应该完全
我试图让 gcc 以不同的语言提供错误消息。但它仍然给我英文的错误信息。 我的语言环境输出 varun@varun-desktop:$ 语言环境 LANG=en_IN LC_CTYPE="es_EC.
我在 Linux x86 上使用 gcc。 我的程序将指向 C 函数的指针导出到 LLVM JIT 函数。调用约定是 cdecl。它在 Windows 上的 MingW 上运行良好。但是奇怪的事情发生
windows 上 php 的奇怪问题...我的应用程序加载了一个“核心”文件,该文件加载了一个设置文件、注册自动加载、进行初始化等。在核心文件的顶部我有 include_once("config.p
在工具|选项|调试器选项 |语言异常可以忽略特定的异常类型。是否可以为每个项目定义这个?例如在调试构建配置中(Delphi 2009 和/或 2010)? /编辑:Reported in QC 最佳答
我在一个文本框旁边有 2 个按钮,在这 2 个按钮后面还有另一个文本框。第一个文本框的 tabindex 为 1000,第一个按钮为 1001,第二个按钮为 1002。第二个文本框的 tabindex
我是 python 新手,正在尝试类型提示,但它们似乎只在某些情况下起作用。它们似乎在属性返回类型上按预期工作,但是当我尝试将整数分配给字符串值(即 self._my_string = 4)时,我没有
问题陈述 我有一些国家和这些国家的州的依赖组合框。我使用 VBA 在第一个组合框中填充唯一值,然后在第二个组合框中动态填充唯一值。该代码似乎忽略了初始传递中的条件。 例如,该代码适用于第一个国家/地区
我对 Javascript 有点陌生。我试图做到这一点,以便单击一个页面上的图像会将您带到一个新页面,并在该新页面上显示特定的 div,因此我使用 sessionStorage 来记住并使用 bool
我不确定我是否正确地处理了这个问题。 我有一个 ASP.NET MVC Web 应用程序。有 4 个主要“页面”通过单击菜单选项,可以选择一个页面,并将该页面选项存储在本地存储中。 现在,如果我刷新页
我的页面工作正常,并按预期显示日期和时间,直到我不得不添加 new Date() 以避免 momentjs deprecation warning 。现在我的约会比应有的时间晚了 5 个小时。 我该如
我需要合并一个 fork 项目。不幸的是,CVS $Id 行不同,因此我尝试的合并工具报告所有文件都不同(其中 95% 只有这一行不同) 是否有一个合并工具可以配置为忽略基于模式的行比较结果? [编辑
我是 python 新手,正在尝试类型提示,但它们似乎只在某些情况下起作用。它们似乎在属性返回类型上按预期工作,但是当我尝试将整数分配给字符串值(即 self._my_string = 4)时,我没有
我正在尝试根据 How do a send an HTTPS request through a proxy in Java? 使用代理访问 https 网页 但是我遇到了一个奇怪的问题:HttpsU
我有一个简单的 CMakeLists.txt 文件: cmake_minimum_required(VERSION 2.8.9) project (sample) add_library(Shared
这个问题在这里已经有了答案: typedef pointer const weirdness (6 个答案) 关闭 8 年前。 我有一个结构体 type_s。然后我将指向 struct type_s
我正在尝试制作一个使用 AES 256 加密的应用程序。不幸的是我无法让它工作。也许我没有完全理解密码逻辑。 所以它正在工作,但据我了解,哈希包含密码。但如果我更改密码,输出是相同的。因此,Crypt
我的文件包含一些行,例如 "This is a string." = "This is a string's content." " Another \" example \"" = " New ex
我尝试使用此查询来获取所选健身房的所有用户。 我的问题是查询忽略了这部分:ual.user_id = weekUsers.user_id 查询似乎获取了与我选择的日期匹配的所有用户 ID,而不检查该用
我是一名优秀的程序员,十分优秀!