unicode - 如何在标准 SQL 中使用 Unicode 规范化删除变音符号(例如重音符号)？-6ren

unicode - 如何在标准 SQL 中使用 Unicode 规范化删除变音符号(例如重音符号)？

转载作者：行者123 更新时间：2023-12-01 09:46:06

25

4

我们如何使用新的 normalize 从 BigQuery 中的字符串中删除变音符号功能如:

café

造成:

cafe

最佳答案

简短的回答

在您了解 normalize 的作用之后，这实际上非常简单:

WITH data AS(
  SELECT 'Ãâíüçãõ' AS text
)

SELECT
  REGEXP_REPLACE(NORMALIZE(text, NFD), r'\pM', '') nfd_result,
  REGEXP_REPLACE(NORMALIZE(text, NFKD), r'\pM', '') nfkd_result
FROM data

结果:

Row   nfd_result    nfkd_result  
1     Aaiucao       Aaiucao

您可以使用选项“NFD”或“NFKD”，并且在大多数情况下，它应该可以工作(您仍然应该了解这两个选项之间的差异以更好地处理您的数据)。

更完整的答案

基本上 normalize 所做的是将字符串中的所有 unicode 转换为其规范的等效形式(或兼容形式)，以便我们有等效的比较引用(现在理解这一点已经需要了解一些概念)。

重点是，unicode 不仅建立了数字(它们的代码点由 U+ 表示)和它们的字形之间的映射，而且还建立了这些点之间如何相互作用的一些规则。

例如，让我们取字形 á .

对于这个字符，我们不只有一个 unicode。我们实际上可以将它表示为 U+00E1或喜欢 U+0061U+0301这是 a 的 unicodes和 ´ .

是的! Unicode 的定义方式使您可以组合字符和变音符号，并通过一个接一个地排序来表示它们的联合。

事实上，你可以玩弄 combining diacritics在 Unicode 中使用 online conversor :

Unicode 将这些可以组合成变音符号的字符类型定义为 precomposed characters通过使用一个聪明而简单的想法:未预先组合的字符具有所谓的 0(零)组合类；可以组合的点接收一个正组合类(例如， ´ 具有类 230)，用于断言应如何表示最终字形。

这很酷，但最终产生了一个问题，它解释了我们从一开始就讨论的函数 normalize:如果我们读取两个字符串，一个是 unicode U+0061U+0301和其他与 U+00E1 (两者都是 á )，它们应该被认为是等效的!事实上，它是以不同方式表示的同一个字形。

这正是 normalize是在做。 Unicode 为每个字符定义了一种规范形式，因此，在规范化时，最终结果应该是这样的:如果我们有两个具有相同字形的不同代码点的字符串，我们仍然可以将两者视为相等。

好吧，我们如何规范代码点基本上有两种主要的可能性:要么将不同的 unicode 组合成一个(在我们的例子中，这将把 U+0061U+0301 转换成 U+00E1)，或者我们可以分解(这将是另一种方式周围，将 U+00E1 转换为 U+0061U+0301 )。

在这里你可以更清楚地看到它:

NF 表示 canonical equivalent . NFC 表示检索规范复合字符(统一)； NFD则相反，分解字符。

您可以使用此信息在 BigQuery 中进行操作:

WITH data AS(
  SELECT 'Amélie' AS text
)

SELECT
  text,
  TO_CODE_POINTS(NORMALIZE(text, NFC)) nfc_result,
  TO_CODE_POINTS(NORMALIZE(text, NFD)) nfd_result
FROM data

结果:

注意 nfd列还有一个代码点。现在你已经知道那是什么了: ´与 e 分开.

如果您阅读 BigQuery 的 normalize 文档，您会发现它也支持 NFKC 和 NFKD 类型。这种类型(带有字母 K)不是通过规范等价来规范化的，而是通过“兼容性”来规范化的，也就是说，它也将一些字符分解为其组成字母，而不仅仅是变音符号:

来信 ﬃ (这与 ffi 不同。这种类型的字符被称为 ligature )也被构成它的字母分解(因此等价性丢失，因为对于某些应用程序，ffi 可能与 ﬃ 不同，因此名称兼容表)。

现在我们知道如何将字符分解成主要字形，然后是变音符号，我们可以使用 regex只匹配它们以从字符串中删除(这是由表达式 \pM 完成的，它只匹配变音符号):

WITH data AS(
  SELECT 'café' AS text
)

SELECT
  REGEXP_REPLACE(NORMALIZE(text, NFD), r'\pM', '') nfd_result
FROM data

这就是(希望如此)归一化函数以及它如何用于删除变音符号的全部内容。感谢用户 sigpwned，我找到了所有这些信息以及他对 this question 的回答.当我尝试它但它并没有完全奏效时，我决定研究这些方法背后的一些理论并想把它写下来:)。希望它对更多人有用，因为它绝对对我有用。

关于unicode - 如何在标准 SQL 中使用 Unicode 规范化删除变音符号(例如重音符号)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48509104/

25

4

0

文章推荐： java - 通用方法与通用容器结合使用

文章推荐： java - Auth.net 创建客户付款资料 - E00040 - 找不到记录

文章推荐： java - Spring 安全 AngularJS 禁止 403

文章推荐： wordpress - textarea_html 不适用于 Visual Composer

PostgreSQL 重音 + 不区分大小写的搜索
我正在寻找一种方法来支持不区分大小写 + 重音不区分搜索的良好性能。到目前为止，我们在使用 MSSql 服务器时没有遇到任何问题，在 Oracle 上我们必须使用 OracleText，而现在我们在
php - 重音 "e"即使在元标记之后也显示为问号
这个问题已经有答案了: Trouble with UTF-8 characters; what I see is not what I stored (5 个回答) 已关闭 5 年前。我刚刚将一个我
linux - 使用反引号/重音/波形符作为修饰键
我正在寻找一种在 Linux 中使用反引号 (`)/波形符 (~) 键和其他一些键创建键盘快捷键的方法。在理想情况下: 按下波形符没有任何作用按下波形符的同时按另一个键会触发(可自定义的)快捷方式
php preg_grep 和元音变音/重音
我有一个由术语组成的数组，其中一些包含重音字符。我像这样做一个 preg grep $data= array('Napoléon','Café'); $result = preg_grep('~' .
.net - DataGridView 过滤器忽略单元格、单词上的变音符号(重音)
我使用 TextBox 在 DataGridView 中进行过滤 image .这是完美的工作。表格的单元格包含 1250 个拉丁字符。我想搜索忽略单元格中单词的重音。例子。如果是文本框 "knjaz
vim - .vimrc 中的键映射(重音)和编码问题
我在 Vim 中遇到一个奇怪的映射问题。我使用的是 Azerty 键盘。在我的 .vimrc 中，我有以下命令可以在段落之间快速移动。 nnoremap _ { vnoremap _ { nnore
javascript - nodejs 中的 Utf8 重音
我尝试读取一个utf8编码的vcf文件，结果是: { "name": "=4A=61=76=69=65=72=20=4C=75=6A=C3=A1=6E", "tel":
mysql - 奇怪的 MYSQL 反引号(重音)
我的数据库中有两个表，info 和 comment，它们的结构如下: info (id(int(10)), name(varchar(80)), ...19 other columns.., phon
linux - Linux 中的 QtWebkit 重音
我使用 QtWebkit 制作了一个应用程序。在同一个 html 页面中，在 Windows 上使用重音符号(西类牙语)时可以正常工作，但在 Linux (Ubuntu) 上则不起作用。我不明白为什
php - 比较两个字符串并忽略(但不替换)重音。 PHP
我有(例如)两个字符串: $a = "joao"; $b = "joão"; if ( strtoupper($a) == strtoupper($b)) { echo $b; } 我希望它是
ruby - 将法语(重音)字符放入 Ruby 文件中
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: invalid multibyte char (US-ASCII) with Rails and Ruby
php - 重写 'pretty URLs' 时如何处理变音符号(重音)
我重写 URL 以包含用户生成的旅游博客的标题。我这样做是为了 URL 的可读性和 SEO 目的。 http://www.example.com/gallery/280-Gorges_du_Tod
c++ - 如何使用 ncurses 获取 UTF-8 重音
我最近安装了新的 Windows 10 build 14393，我想使用新的 linux 子系统。所以我决定学习 ncurses，但我找不到如何从 getch 中获取带有重音符的字符的 UTF-8 代

首页

博学

6Ren·AI

商城

unicode - 如何在标准 SQL 中使用 Unicode 规范化删除变音符号(例如重音符号)？