- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章MySQL/MariaDB中如何支持全部的Unicode由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
永远不要在 mysql 中使用 utf8,并且始终使用 utf8mb4 .
mysql/mariadb中,utf8字符集并不是对unicode的真正实现,即不是真正的utf-8编码,因为它支持最多3个字节的字符。 作为可变长字符编码,utf-8最多支持4个字节,对于emoji、中日韩繁体等部分字符,需要使用4个字节才能完整存储。也就是,如果想要支持全部的unicode编码,mysql/mariadb中的utf8是不够的.
utf-8 编码可以表示 unicode 字符集中的每个符号,范围从 u+000000 到 u+10ffff。那是 1,114,112 个可能的符号(并非所有这些 unicode 代码点都被分配了字符,但这并不影响utf-8对其进行编码。unicode实际映射了字符的共有1,112,064个码位)。utf-8 是一种可变宽度编码;它使用一到四个(8位bit)字节对每个符号进行编码。这样既可以节省存储低代码值的空间, 。
又能充分表示所有的字符.
可以说utf-8是最受欢迎的unicode编码实现.
而mysql/mariadb真正实现utf-8编码的是utf8mb4,最多支持4个字节的存储.
总共有 1,048,576 个无法使用的可能代码点。mysql 的 utf8 只允许存储所有可能的 unicode 代码点的 5.88% ((0x00ffff + 1) / (0x10ffff + 1))。正确的 utf-8 可以编码 100% 的所有 unicode 代码点.
如果使用utf8,存储emoji等4个字节的字符时,通常会报错 error: 1366 错误:
[err] 1366 - incorrect string value: '\xf0\x9f\x98\x93' for column 'xxx' at row xx 。
[error] 1366 - incorrect string value: '\x...' for column 'xxx' at row xx 。
mysql/mariadb 中的utf8mb4是对原先utf8只能存储3个字节大小的字符的一种补充,是一种真正的utf-8编码.
mysql 5.5.3+ 版本之后开始支持.
从 mysql 8.0 开始默认的字符集已经变为 utf8mb4。也就是使用mysql 8.0及以上版本,就不用担心字节长度问题。 mariadb 10.x 版本默认的字符集仍是 latin1。因此通常情况下,应该修改为utf8mb4.
utf8mb4对应常用的排序规则为:utf8mb4_general_ci 和 utf8mb4_unicode_ci.
登陆mysql/mariadb之后,使用show variables where variable_name like 'character\_set\_%' or variable_name like 'collation%';查看字符集和排序规则.
查看字符集:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
mariadb [(none)]> show variables
like
'character%'
;
+
--------------------------+------------------------------------------------+
| variable_name | value |
+
--------------------------+------------------------------------------------+
| character_set_client | gbk |
| character_set_connection | gbk |
| character_set_database | utf8 |
| character_set_filesystem |
binary
|
| character_set_results | gbk |
| character_set_server | utf8 |
| character_set_system | utf8 |
| character_sets_dir | c:\program files\mariadb 10.3n\share\charsets\ |
+
--------------------------+------------------------------------------------+
8
rows
in
set
(0.043 sec)
|
由于是在中文windows下安装的,所以含有gbk.
linux下my.cnf :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
> vim /etc/my.cnf
#
# this
group
is
read
both both
by
the client
and
the server
# use it
for
options that affect everything
#
[client-server]
[mysqld]
character
-
set
-server = utf8mb4
init_connect=
'set names utf8mb4'
collation-server=utf8mb4_unicode_ci
character
-
set
-client-handshake=
false
[client]
default
-
character
-
set
=utf8mb4
[mysql]
default
-
character
-
set
=utf8mb4
#
# include
all
files
from
the config directory
#
!includedir /etc/my.cnf.d
|
windows下my.ini :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
[mysqld]
datadir=c:/program files/mariadb 10.3n/data
port=3306
character_set_server=utf8mb4
# using
unique
option
prefix
'character_set_client'
is
error-prone
and
can break
in
the future. please use the
full
name
'character-set-client-handshake'
instead
.
character
-
set
-client-handshake=utf8mb4
# character_set_client=utf8mb4
collation-server=utf8mb4_unicode_ci
init_connect=
'set names utf8mb4'
skip-
character
-
set
-client-handshake=
false
character_set_filesystem =
binary
lower_case_table_names=2
[mysqldump]
loose_character_set_client=utf8mb4
[mysql]
default
-
character
-
set
=utf8mb4
[client]
port=3306
plugin-dir=c:/program files/mariadb 10.3n/lib/plugin
default
-
character
-
set
=utf8mb4
|
几个设置项说明:
纯净的精简的关于utf8mb4字符集和排序规则的设置,如下,只需要5项设置即可:
1
2
3
4
5
6
7
8
9
10
|
[client]
default
-
character
-
set
= utf8mb4
[mysql]
default
-
character
-
set
= utf8mb4
[mysqld]
character
-
set
-client-handshake =
false
character
-
set
-server = utf8mb4
collation-server = utf8mb4_unicode_ci
|
linux下使用systemctl restart mariadb或systemctl restart mysqld。必须使用restart重启(非reload).
低版本mariadb启动或重启的服务名为mysqld(mysqld.service)。systemctl restart mysqld 。
windows下打开“服务”,在服务中找到mariadb或mysql对应的服务,右键重启即可.
上面的修改重启生效后,再次查看,如下,已经变成为utf8mb4和utf8mb4_unicode_ci.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
mariadb [(none)]> show variables
where
variable_name
like
'character\_set\_%'
or
variable_name
like
'collation%'
;
+
--------------------------+--------------------+
| variable_name | value |
+
--------------------------+--------------------+
| character_set_client | utf8mb4 |
| character_set_connection | utf8mb4 |
| character_set_database | utf8mb4 |
| character_set_filesystem |
binary
|
| character_set_results | utf8mb4 |
| character_set_server | utf8mb4 |
| character_set_system | utf8 |
| collation_connection | utf8mb4_unicode_ci |
| collation_database | utf8mb4_unicode_ci |
| collation_server | utf8mb4_unicode_ci |
+
--------------------------+--------------------+
10
rows
in
set
(0.008 sec)
|
上面显示的字符集和排序规则可以看到,有两项并不是utf8mb4.
上面的设置已经是正确的修改utf8mb4的设置。下面将可能的几个相关设置项列出来,供可能的参考(虽然基本用不到):
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
[client]
default
-
character
-
set
= utf8mb4
[mysql]
default
-
character
-
set
= utf8mb4
[mysqld]
explicit_defaults_for_timestamp = 1 # posting it here
as
a tip
to
disable the
timestamp
message, maybe it can help someone :)
character
-
set
-client-handshake = 0 #
false
init_connect =
'set character_set_system = utf8mb4'
init_connect =
'set character_set_connection = utf8mb4'
init_connect =
'set character_set_database = utf8mb4'
init_connect =
'set character_set_results = utf8mb4'
init_connect =
'set collation_database = utf8mb4_unicode_ci'
init_connect =
'set collation_connection = utf8mb4_unicode_ci'
init_connect =
'set names utf8mb4'
character
-
set
-server = utf8mb4
#character_set_client = utf8mb4
collation-server = utf8mb4_unicode_ci
collation_connection = utf8mb4_unicode_ci
collation_database = utf8mb4_unicode_ci
|
多个init_connect也可以这样设置:init_connect = 'set collation_connection = utf8mb4_unicode_ci,names utf8mb4'。未验证 。
如果数据库创建之初就是utf8mb4,则就没有这些烦心事了!!! 。
第 1 步:创建备份 创建要升级的服务器上所有数据库的备份。安全第一! 。
第 2 步:升级mysql服务器 将 mysql 服务器升级到 v5.5.3+。mysql升级到8.0就不用第5步mysql服务器字符集的修改了,默认就是utf8mb4。mariadb还需要修改字符集.
第 3 步:修改数据库、表和列 将数据库、表和列的字符集和排序规则属性更改为使用 utf8mb4 .
1
2
3
4
5
6
7
8
9
|
#
for
each
database
:
alter
database
database_name
character
set
= utf8mb4
collate
= utf8mb4_unicode_ci;
#
for
each
table
:
alter
table
table_name
convert
to
character
set
utf8mb4
collate
utf8mb4_unicode_ci;
#
for
each
column
:
alter
table
table_name change column_name column_name
varchar
(191)
character
set
utf8mb4
collate
utf8mb4_unicode_ci;
# (不要盲目复制粘贴!具体的语句取决于列类型、最大长度和其他属性。上面这行只是一个`
varchar
`列的例子。)
# 或者modefy语句
alter
table
table_name
modify
column_name
varchar
(255)
character
set
utf8mb4
collate
utf8mb4_general_ci;
|
第 4 步:检查列和索引键的最大长度 。
这可能是整个升级过程中最乏味的部分.
从 utf8 转换为 utf8mb4 时,列或索引键的最大长度以字节为单位不变。因此,它在字符方面更小,因为字符的最大长度现在是四个字节而不是三个字节.
例如,tinytext 列最多可容纳 255 个字节,这与 85 个三字节字符或 63 个四字节字符相关。假设你有一个使用 utf8 的 tinytext 列,但必须能够包含 63 个以上的字符。鉴于此要求,无法将此列转换为 utf8mb4,除非还将数据类型更改为更长的类型,例如 text — 因为如果你尝试用四字节字符填充它,将只能输入 63 个字符,但不能更多。 索引键也是如此。 innodb 存储引擎的最大索引长度为 767 字节,因此对于 utf8 或 utf8mb4 列,您最多可以分别索引 255 或 191 个字符。如果您当前有索引长度超过 191 个字符的 utf8 列,则在使用 utf8mb4 时需要索引较少数量的字符。 (因此,我不得不将一些索引的 varchar(255) 列更改为 varchar(191)。) 。
第 5 步:修改连接、客户端和服务器字符集 。
在应用程序代码中,将连接字符集设置为 utf8mb4。这可以通过简单地用 set names utf8mb4 替换 set names utf8 来完成。同时排序规则也要对应修改,例如 set names utf8 collate utf8_unicode_ci 变为 set names utf8mb4 collate utf8mb4_unicode_ci.
确保同时设置客户端和服务器字符集.
mysql 配置文件 (/etc/my.cnf) 中有以下内容:
1
2
3
4
5
6
7
8
9
10
|
[client]
default
-
character
-
set
= utf8mb4
[mysql]
default
-
character
-
set
= utf8mb4
[mysqld]
character
-
set
-client-handshake =
false
character
-
set
-server = utf8mb4
collation-server = utf8mb4_unicode_ci
|
第 6 步:修复优化所有表( repair and optimize ) 升级 mysql 服务器并进行上述必要更改后,请确保修复和优化所有数据库和表。否则可能会遇到奇怪的错误,即使没有错误被抛出。 可以为要修复和优化的每个表运行以下 mysql 查询:
1
2
3
|
#
for
each
table
repair
table
table_name;
optimize
table
table_name;
|
该工作,可以使用命令行 mysqlcheck 实用程序一次性轻松完成:
1
|
$ mysqlcheck -u root -p
--auto-repair --optimize --all-databases
|
这将提示输入root用户的密码,之后将修复和优化所有数据库中的所有表.
主要参考翻译自:how to support full unicode in mysql databases,欢迎阅读原文.
到此这篇关于mysql/mariadb中如何支持全部的unicode的文章就介绍到这了,更多相关mysql/mariadb支持unicode内容请搜索我以前的文章或继续浏览下面的相关文章希望大家以后多多支持我! 。
原文链接:https://juejin.cn/post/6996659667011108878 。
最后此篇关于MySQL/MariaDB中如何支持全部的Unicode的文章就讲到这里了,如果你想了解更多关于MySQL/MariaDB中如何支持全部的Unicode的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我在 CentOS 6.4 上运行 MariaDB (10.0.2-MariaDB) 并且想使用 MariaDB 的 CONNECT-Engine 从一些日志文件中读取。由于日志文件很大,我用两个 C
MariaDB 是否支持嵌套事务(不是保存点)? 我希望能够在存储过程中使用嵌套事务。目前在 MySQL 中,我将一个参数“useTransaction”传递给每个存储过程,它控制我是否在该存储过程的
MariaDb 的默认端口是什么? 我是编程新手。我正在创建我的第一个连接到 MariaDB 的 Java 应用程序。我需要指定数据库端口。 最佳答案 Mariadb 的默认端口是 3306。 它与
ubuntu:~$ sudo apt-get install mariadb-server Reading package lists... Done Building dependency tr
我在Ubuntu 18.04上使用的是Mariadb 10.4.10,工具客户端是DBeaver 6.2.5 我想充分利用 Mariadb 中的约束检查功能来确保数据完整性,因为它是从 10.2.1
当我在 phpmyadmin 中运行这个 sql 时 SELECT @@SQL_MODE, @@GLOBAL.SQL_MODE; 表明 @@SQL_MODE STRICT_TRANS_TABLES,E
我正在尝试使用 MariaDB 10.1.12 的联合引擎来创建基于远程数据库中的表的表。关注MariaDB instructions关于如何使用 FederatedX 实现,在数据库 db1 中我创
我在该数据库中有此列,其中包含空格键,我想更改它。 ALTER TABLE . CHANGE COLUMN `Anzahl Personen` AnzahlPersonen int(11); 在命令行
我正在尝试安装 maria db 并遇到以下问题。 [root@localhost ~]# service mysqld start Redirecting to /bin/systemctl sta
我已经基于 mariadb:10.1 构建了一个图像这基本上添加了一个新的 cluster.conf但是在第一个节点开始成功工作后,在第二个节点上面临以下错误。有人可以帮我在这里调试吗? 错误日志尾部
我已阅读 the docs用于 MariaDB REGEX_REPLACE但无法让我的查询工作。我将链接存储在一列中,link并想更改链接的结尾: 来自 www.example.com/至 www.e
我在 MariaDB 的 ColumnStore 上发现的每一项分析都声称它使用的磁盘空间比 InnoDB 等常规引擎少,例如:https://www.percona.com/blog/2017/03
如何在 MariaDB 中重置密码?我使用 Windows 而不是 Linux。谁知道如何重置我的 MySQL MariaDB 密码?我尝试在 Google 上搜索但没有帮助。 最佳答案 我遇到了同样
我正在尝试将 Quarkus 与 MariaDB 图像一起用于测试。 使用 mvn integration-test 启动测试时,我得到以下信息: Unable to start devservice
我正在尝试更新存储在 MariaDB 的 json 列中的数据(libmysql 版本 - 5.6.43,服务器:10.3.34-MariaDB-cll-lve - MariaDB 服务器)。 我的数
我有一个使用 MariaDB 中的表定义的多对多关系。我正在尝试将 Entity Framework Core 中的导航属性用于相关实体,但它们没有水合。 roles | role_id | role
Entity Framework Core 是否支持 MariaDB? 我看到它不在 supported providers 的列表中,但 MySQL 是。也许 MySQL 提供程序会针对 Maria
我在 MariaDb (10.4.10-MariaDB-1:10.4.10+maria~bionic) 中有一个巨大的表,我正在使用添加一个新列 alter table Appointment add
有没有一种方法可以监听 MySQL/MariaDB 中的数据库更改,就像您可以跟踪 MongoDB oplog 一样?我在网上找不到关于此的信息。也许它只适用于 Postgres 而不适用于 MySQ
我刚刚在 Centos 7 中安装了 MariaDB 10.3 数据库服务器。 一切顺利,但在执行“systemctl status mariadb”命令时。这是完整的输出: root@vps [/e
我是一名优秀的程序员,十分优秀!