gpt4 book ai didi

r - 如何在 R 中识别/删除非 UTF-8 字符

转载 作者:行者123 更新时间:2023-12-02 13:42:49 24 4
gpt4 key购买 nike

当我在 R 中导入 Stata 数据集(使用 foreign 包)时,导入有时会包含无效字符 UTF-8 。这本身就已经够令人不快的了,但是当我尝试将对象转换为 JSON 时,它就会破坏一切。 (使用rjson包)。

如何识别字符串中无效的 UTF-8 字符并在之后删除它们?

最佳答案

使用 iconv 及其参数 sub 的另一个解决方案:字符串。如果不是 NA(这里我将其设置为 ''),则用于替换输入中任何不可转换的字节。

x <- "fa\xE7ile"
Encoding(x) <- "UTF-8"
iconv(x, "UTF-8", "UTF-8",sub='') ## replace any non UTF-8 by ''
"faile"

这里请注意,如果我们选择正确的编码:

x <- "fa\xE7ile"
Encoding(x) <- "latin1"
xx <- iconv(x, "latin1", "UTF-8",sub='')
facile

关于r - 如何在 R 中识别/删除非 UTF-8 字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17291287/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com