gpt4 book ai didi

r - 导入 "special"个字符的 .csv 文件

转载 作者:行者123 更新时间:2023-12-04 21:02:35 24 4
gpt4 key购买 nike

我正在尝试将 .csv 文件读入 R。.csv 文件是在 Excel 中创建的,它包含“长”破折号,这是 Excel“自动更正”序列空格-破折号-空格的结果。包含这些“长”破折号的示例条目:

US – California – LA
US – Washington – Seattle



我尝试了不同的编码,包括以下三个选项:
x <- read.csv(filename, encoding="windows-1252") # Motivated by http://www.perlmonks.org/?node_id=551123
x <- read.csv(filename, encoding="latin1")
x <- read.csv(filename, encoding="UFT-8")

但是,长破折号要么显示为 �(第一个和第二个选项),要么显示为 <U+0096> (第三个选项)。

我意识到我可以以不同的格式存储文件或使用不同的软件( Excel to CSV with UTF8 encoding),但这不是重点。

有没有人弄清楚 R 中的哪种编码选项在这种情况下有效?

最佳答案

如果您使用的是 RStudio,请使用导入数据集。

  • 使用标题:否
  • 分隔符空格
  • 小数点
  • 引用 双引号
  • 取消选中字符串作为因子

  • 加载文档后,您只需删除现在显示为“?”的列您可以看到这是第 2 列和第 4 列。如果您有一个数据框 mydf,那么您将像这样删除第二列。
    mydf_new<-mydf[-2]
    您可以对另一列(现在是第 3 列)执行相同的操作。

    关于r - 导入 "special"个字符的 .csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33264688/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com