gpt4 book ai didi

postgresql - 从 PostgreSQL Erlang 获取 unicode 数据

转载 作者:行者123 更新时间:2023-11-29 14:21:33 28 4
gpt4 key购买 nike

我正在尝试使用 Erlang 从 PostgreSQL 获取数据。这是我从数据库获取数据的代码。但是我在“状态”列中有西里尔语数据。此 cyrrilic 数据未被正确获取。我尝试使用 UserInfo = io_lib:format("~tp ~n",[UserInfoQuery]), 但这似乎不起作用,因为它会使应用程序崩溃。

UserInfoQuery = odbc_queries:get_user_info(LServer,LUser),
UserInfo = io_lib:format("~p",[UserInfoQuery]),
?DEBUG("UserInfo: ~p",[UserInfo]),
StringForUserInfo = lists:flatten(UserInfo),

get_user_info(LServer, Id) ->
ejabberd_odbc:sql_query(
LServer,
[<<"select * from users "
"where email_hash='">>, Id, "';"]).

这是从数据库中获取的数据

{selected,[<<"username">>,<<"password">>,<<"created_at">>,
<<"id">>,<<"email_hash">>,<<"status">>],
[{<<"admin">>,<<"admin">>,<<"2014-05-13 12:40:30.757433">>,
<<"1">>,<<"adminhash">>,
<<209,139,209,132,208,178,208,176,209,139,209,132,208,
178,208,176>>}]}

问题:

  1. 如何从列中提取数据?例如只有数据来自“状态”列?
  2. 如何从数据库中提取 unicode 格式的数据?我应该从数据库中获取数据然后使用io_lib:format("~tp~n") 就可以了吗?有没有更好的方法?

附加问题:是否有任何方法可以获取人类可读格式的字符串,以便从 RowUnicode 获取 StringForUserInfo = 'ыфваыфва'?我试过这个:

{selected, _, [Row]} = UserInfoQuery,
RowUnicode = io_lib:format("~tp~n", [Row]),
?DEBUG("RowUnicode: ~p",[RowUnicode]),
StringForUserInfo = lists:flatten(RowUnicode),

错误:

bad argument in call to erlang:iolist_size([123,60,60,34,97,100,109,105,110,34,
62,62,44,60,60,34,97,100,109,105,110,34,62,62,44,60,60,34,50,...])

最佳答案

Erlang ODBC 驱动程序完美地从您的数据库中获取了状态列。事实上,PostgreSQL 对你的数据进行编码是 UTF-8,你得到的值也是 UTF-8 编码的。

Status = <<209,139,209,132,208,178,208,176,209,139,209,132,208,178,208,176>>.

这是一个表示字符串 ыфваыфва 的二进制文件在 UTF-8 中。您可以在代码中直接使用 UTF-8 编码的二进制文件。如果你想使用 unicode 字符点而不是 UTF-8 字节,你可以将其转换为整数列表(Erlang 的说法是字符串)。只需使用 unicode:characters_to_list/1 ,在您的情况下将产生列表 [1099,1092,1074,1072,1099,1092,1074,1072] .这是同一字符串的列表表示。 Unicode 字符 1099(十六进制的 16#044B)是 ы(西里尔小写字母 YERU,参见 Cyrillic excerpt unicode chart)。

Erlang 可以处理上述两种表示形式的 unicode 文本:作为整数的 unicode 字符列表和 UTF-8 编码字符的二进制。

让我们来看一个更小的例子,字符串 "ы" .该字符串由unicode字符044B CYRILLIC SMALL LETTER YERU组成,可编码为二进制为<<209,139>>。或作为 [16#044B] 的列表(= [1099] )。

从历史上看,整数和二进制列表都是采用 Latin-1 (ISO-8859-1) 编码的。 Unicode 和 ISO-8859-1 具有从 0 到 255 的相同值,但 UTF-8 转换仅匹配 0-127 范围内字符的 ISO-8859-1。为此,Erlang 的 ~s format 参数有一个 unicode 翻译修饰符,~ts .以下行将无法按预期工作:

io:format("~s", [<<209,139>>]).

它将输出两个字符,00D1(带波浪线的拉丁文大写字母 N)和 008B(部分前行)。这是因为 <<209,139>> 被解释为 Latin-1 字符串而不是 UTF-8 编码字符串。

以下行将失败:

io:format("~s", [[1099]]).

这是因为 [1099] 不是有效的 Latin-1 字符串。

相反,你应该这样写:

io:format("~ts", [<<209,139>>]),
io:format("~ts", [[1099]]).

Erlang 的 ~p格式参数也有一个 unicode 翻译修饰符,~tp .然而,~tp不会独自做您正在寻找的事情。你是否使用~p~tp ,默认情况下,io_lib:format/2将上面的 Status UTF-8 编码二进制格式格式化为:

<<209,139,209,132,208,178,208,176,209,139,209,132,208,178,208,176>>

确实,t修饰符仅表示参数应接受 unicode 输入。如果你使用 ~p ,当格式化字符串或二进制文件时,Erlang 将确定这是否可以表示为 Latin-1 字符串,因为输入可能是 Latin-1 编码的。大多数时候,这种启发式方法允许 Erlang 正确地区分整数列表和字符串列表。要查看工作中的启发式,您可以尝试类似的操作:

io:format("~p\n~p\n", [[69,114,108,97,110,103], [1,2,3,4,5,6]]).

启发式检测到 [69,114,108,97,110,103]实际上是"Erlang" , 而 [1,2,3,4,5,6]嗯,只是一个整数列表。

如果你使用 ~tp , Erlang 期望字符串或二进制文件是 unicode 编码的,然后应用默认 识别启发式。并且默认启发式恰好当前 (R17) 也是 latin-1。由于您的字符串不能用 Latin-1 表示,Erlang 会将其显示为整数列表。幸运的是,您可以通过传递 +pc unicode 来切换到 Unicode 启发式算法。在命令行上添加到 Erlang,这将生成您要查找的内容。

$ erl +pc unicode

所以你的问题的解决方案是通过 +pc unicode并使用 ~tp .

关于postgresql - 从 PostgreSQL Erlang 获取 unicode 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24119993/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com