- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
为什么 String.to_atom 将编码选项硬编码为 :utf8 ?
https://github.com/elixir-lang/elixir/blob/d6bb3342b7ea8b921b3d4b69f65064c4158c99d7/lib/elixir/lib/string.ex#L1927
def to_atom(string) 做
:erlang.binary_to_atom(字符串, :utf8)
结尾
erlang binary_to_atom
的可用编码选项是:
latin1 |统一码 | utf8
http://erlang.org/documentation/doc-8.0-rc1/erts-8.0/doc/html/erlang.html#binary_to_atom-2
最佳答案
长话短说
因为 Erlang 宇宙终于在所有地方都采用了 UTF-8。
讨论
latin1
即将消失,主要是 UTF-8 的子集(少数字符除外),unicode
是 utf8
的旧别名>,这给我们留下了一个普遍适用的选项:utf8
。这很重要,因为 UTF-8 原子(和字符串)是 Erlang 和 Elixir 中的前进方向。
如果您处理的是非 UTF-8 编码的旧数据,则在调用 binary_to_atom/2
之前转换它。
这也符合 Erlang 标准库中较新的 string
和 unicode
模块的变化——它们可以最终解决 UTF-经过几十年的不确定性(因为编码很难并且在发明 Erlang 时对此并没有达成太多共识),8 成为了一个普遍接受的标准。
关于编码实践的一句话
我在日本工作,主要处理业务数据,其中一些很旧,还有一些采用非常疯狂的编码。我倾向于主要使用 Erlang 编写代码(我更喜欢微型语言)。当编写一些较旧的字符串处理函数和 unicode 模块时,字符串分为两类:
时代变了。现在我们知道字符串几乎总是采用 UTF-8 并且 Unixverse 中的所有内容最终都解决了这个问题,这产生了令人愉快的效果(几乎)所有其他有意义的系统也解决了这个问题(如果不是在内部) ,然后通过可以在 UTF-16 和 UTF-8 之间进行选择的强大检测库)。
如果您确实拥有非 UTF-8 数据,那么您就知道是这种情况,并且应该在将数据发送到通用函数之前转换您的数据例如 binary_to_atom/2
。实际上,我认为我们接下来应该转向包括 binary_to_atom/1
并完全淘汰 binary_to_atom/2
-- which is what has already happened with list_to_atom/1
从 Erlang R20 开始(耶!)。
那么这对您的代码有何影响?
当您开始处理古老的编码时,您的代码的复杂性突然爆发,需要立即加以控制,以免它以疯狂的方式感染您的整个代码库。做到这一点的最好方法是让疯狂的业务系统保持正常,并在边缘进行转换。每当我们处理以疯狂编码形式出现的旧数据时,我们已经知道并为此做好了准备——所以我们会在前面明确地转换为 UTF-8,这样以后就不会遇到任何问题在系统的更深处。
您可能会想,“他们为什么不检测每个字符串的编码呢?”唉,没有合适的方法来检测字符串编码。只是高度自信是不可能的。在大多数情况下,它也很快成为一项过时的任务,因为今天生成的绝大多数数据都是 UTF-8(或 UTF-16,但很少通过网络遇到这种情况)。
关于erlang - String.to_atom 将底层 erlang.binary_to_atom 编码选项硬编码为 :utf8, 为什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46675714/
算力时代,视频云需要怎样的 CPU? 在数据爆发式增长及算法日益精进的大背景下,属于「算力」的时代俨然到来。随着视频成为互联网流量的主角,日趋饱和的音视频场景渗透率、人类对“感官之限”的追
我正在使用 keras 开发深度网络。有一个激活“硬 sigmoid”。它的数学定义是什么? 我知道什么是 Sigmoid。有人在Quora上问了类似的问题:https://www.quora.com
我有一个不寻常的 SQL 问题,我不太确定如何最好地解释,所以请耐心等待。我有三张表,一张是志愿者组织的表,一张是用户的表,一张是用户详细信息的表。 #Table 1# ## Name Preside
我正在尝试使用名为 bigText 的 jquery 插件。一个很棒的用于创建 block 头的插件。如果您想将其与自定义字体一起使用,它会声明您需要 google webfont loader,这样
假设我有一张 table date,personid 1/1/2001 1 1/2/2001 3 1/3/2001 2 1/4/2001 2 1/5/2001 5 1/6/2001 5 1/7/200
下面是我要执行的 SQL。我想避免为此执行多个请求,我很确定这是可能的…… First table : products_categories (category_id, category_infos
我在 android studio 中重新设置了一些提交,并选择了硬重置类型。我失去了一个星期的工作。是否有希望撤销此操作?我正在使用 android studio,它有内置的 GUI 选项来执行所有
当我使用我的交叉工具链编译 C 代码时,链接器会打印出警告页面,说明我的可执行文件使用了硬 float ,但我的 libc 使用了软 float 。有什么区别? 最佳答案 硬浮点使用片上浮点单元。软
linux系统有arm64,arm架构armv8-a。如何知道 debian 是运行硬浮点还是软浮点? 最佳答案 符合 AAPCS64, GNU GCC for armv8 仅提供硬浮点 aarch6
我正在开发 cortex-m3 的微内核。我创建了一个故意导致错误的小型测试应用程序。 现在我不确定如何从故障中返回。我知道堆栈可能需要使用不同函数的地址进行更新。我也知道在某些情况下从错误返回可能是
硬/软 限制是什么意思? 核心文件大小的差异例如: ulimit -Sc 1024 与 ulimit -Hc 1024 我通常在运行二进制文件之前将脚本放入 ulimit -c unlimited。
我想在 Java 中加载一个 MSCAPI keystore 并检查 MY 存储中的可用证书。但是,这些证书的一些 key 驻留在硬件 token 上,并且弹出窗口会在加载期间询问 token 。 有
是的,这是一个有点棘手的问题; 一个数组(没有副本),而不是任何奇数数组。让我解释一下,让我们从这里开始; $a = array ( 'one' => 1, 'two' => 2, 'three' =
我需要在运行 Ubuntu 12.04 的 BeagleBoard xM rev C 上运行一个使用 ftd2xx 的程序。我正在尝试使用提供的 ARM 库 libftd2xx.so here . l
我是一名优秀的程序员,十分优秀!