作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在使用 PostgreSQL 对包含西类牙字符“Ñ”的文本进行全文搜索时,我遇到了一个问题
当我尝试标记西类牙语单词“AÑO”(年份)时,根据输入是大写还是小写,我得到以下结果:
SELECT to_tsvector('spanish','AÑO'),to_tsquery('spanish','año')
"to_tsvector" "to_tsquery"
"'aÑo':1" "'año'"
如您所见,结果不一样并且区分大小写,因此如果它们包含此字符,我的应用程序全文搜索查询将区分大小写。
有什么办法可以解决这个问题吗?我一直在搜索有关全文搜索的 PostgreSQL 文档,但我不知道如何在已安装的词典上更改此行为。
非常感谢。马蒂
最佳答案
to_tsvector
将Ñ
转换为ñ
的能力取决于语言环境,特别是lc_ctype
。假设您的数据库正在使用 LC_CTYPE
,例如 C
,其知识仅限于 US-ASCII
。
LC_CTYPE
与 Unicode 兼容的示例:
test=> show lc_ctype; lc_ctype ------------- fr_FR.UTF-8(1 row)test=> SELECT to_tsvector('spanish','AÑO'),to_tsquery('spanish','año'); to_tsvector | to_tsquery -------------+------------ 'año':1 | 'año'(1 row)
Note that the downcasing is what you expect.
Opposite example with C
:
creation:
CREATE DATABASE cc lc_ctype 'C' template template0;
注意问题中没有小写:
cc=> show lc_ctype ; lc_ctype ---------- C(1 row)cc=> SELECT to_tsvector('spanish','AÑO'),to_tsquery('spanish','año'); to_tsvector | to_tsquery -------------+------------ 'aÑo':1 | 'año'(1 row)
关于PostgreSQL 全文搜索 西类牙语字符 Ñ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45567951/
我是一名优秀的程序员,十分优秀!