作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 R 清理来自夏威夷的街道地址。地址已输入 Hawaiian diacritical marks .在 OSX 操作系统上使用 R 时,我可以轻松地使用 gsub() 来删除变音符号;然而,运行 64 位 Windows 机器并运行 R 的 PC 会显示奇怪的字符,例如用“–”代替 okina (‘)。我怀疑这可能是编码问题,并包含如下编码参数:
address_file <- read.csv("file.csv", encoding="UTF-8")
虽然解决了大部分奇怪的编码问题,但 R 无法再识别某些变音符号,例如 okina。例如,我会使用以下语法,但不会删除 okina:
gsub("‘", "", hiplaces$name)
有人可以帮助解决运行 64 位 Windows 的 PC 上的这个问题吗?我怀疑这可能是 1) 编码问题,我选择了不正确的编码,或者 2) 可以删除/替换变音符号的 gsub 解决方案。我尝试清理的数据如下所示:
hiplaces <- data.frame(id = 1:3)
hiplaces$name <- c("‘Imiola Congregational Church", "‘Ōla‘a First Hawaiian Congregational Church", "Nā‘ālehu Community Center")
gsub("‘", "", hiplaces$name)
TIA。
最佳答案
由于您的最终结果是一组街道地址,因此您应该只保留字母数字字符即可。在此假设下,以下内容应该有效:
hiplaces <- data.frame(id = 1:3)
hiplaces$name <- c("‘Imiola Congregational Church",
"‘Ōla‘a First Hawaiian Congregational Church",
"Nā‘ālehu Community Center")
hiplaces$name <- gsub("[^[:alnum:]///' ]", "", hiplaces$name)
> hiplaces$name
[1] "Imiola Congregational Church"
[2] "Olaa First Hawaiian Congregational Church"
[3] "Naalehu Community Center"
关于r - 使用 okinas 和其他夏威夷变音符号修改文本字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30772392/
我正在使用 R 清理来自夏威夷的街道地址。地址已输入 Hawaiian diacritical marks .在 OSX 操作系统上使用 R 时,我可以轻松地使用 gsub() 来删除变音符号;然而,
Hawaiian quote当 T-SQL 与字符串函数结合使用时,它会出现一些奇怪的行为。这里发生了什么?我错过了什么吗?其他角色是否也遇到同样的问题? SELECT UNICODE(N'ʻ') -
我是一名优秀的程序员,十分优秀!