gpt4 book ai didi

r - 使用 okinas 和其他夏威夷变音符号修改文本字符串

转载 作者:行者123 更新时间:2023-12-01 13:52:21 24 4
gpt4 key购买 nike

我正在使用 R 清理来自夏威夷的街道地址。地址已输入 Hawaiian diacritical marks .在 OSX 操作系统上使用 R 时,我可以轻松地使用 gsub() 来删除变音符号;然而,运行 64 位 Windows 机器并运行 R 的 PC 会显示奇怪的字符,例如用“–”代替 okina (‘)。我怀疑这可能是编码问题,并包含如下编码参数:

address_file <- read.csv("file.csv", encoding="UTF-8")

虽然解决了大部分奇怪的编码问题,但 R 无法再识别某些变音符号,例如 okina。例如,我会使用以下语法,但不会删除 okina:

gsub("‘", "", hiplaces$name) 

有人可以帮助解决运行 64 位 Windows 的 PC 上的这个问题吗?我怀疑这可能是 1) 编码问题,我选择了不正确的编码,或者 2) 可以删除/替换变音符号的 gsub 解决方案。我尝试清理的数据如下所示:

hiplaces <- data.frame(id = 1:3)
hiplaces$name <- c("‘Imiola Congregational Church", "‘Ōla‘a First Hawaiian Congregational Church", "Nā‘ālehu Community Center")

gsub("‘", "", hiplaces$name)

TIA。

最佳答案

由于您的最终结果是一组街道地址,因此您应该只保留字母数字字符即可。在此假设下,以下内容应该有效:

hiplaces <- data.frame(id = 1:3)
hiplaces$name <- c("‘Imiola Congregational Church",
"‘Ōla‘a First Hawaiian Congregational Church",
"Nā‘ālehu Community Center")

hiplaces$name <- gsub("[^[:alnum:]///' ]", "", hiplaces$name)

> hiplaces$name
[1] "Imiola Congregational Church"
[2] "Olaa First Hawaiian Congregational Church"
[3] "Naalehu Community Center"

关于r - 使用 okinas 和其他夏威夷变音符号修改文本字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30772392/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com