gpt4 book ai didi

R 的 read.csv() 省略行

转载 作者:行者123 更新时间:2023-12-04 23:59:54 26 4
gpt4 key购买 nike

在 R 中,我试图读取大约 42,900 行的基本 CSV 文件(由 Unix 的 wc -l 确认)。相关代码是

vecs <- read.csv("feature_vectors.txt", header=FALSE, nrows=50000)

其中 nrows 稍微高估了,因为为什么不呢。然而,
>> dim(vecs)
[1] 16853 5

表明生成的数据框有大约 17,000 行。这是内存问题吗?每行由一个~30 个字符的哈希码、一个~30 个字符串和3 个整数组成,所以文件的总大小只有4MB 左右。

如果它是相关的,我还应该注意到很多行都缺少字段。

谢谢你的帮助!

最佳答案

这类问题通常很容易使用 count.fields 解决。 ,它告诉您如果调用 read.csv,生成的数据框将有多少列.

(n_fields <- count.fields("feature_vectors.txt"))

如果不是所有 n_fields 的值都相同,那么您就有问题了。
if(any(diff(n_fields)))
{
warning("There's a problem with the file")
}

在这种情况下,查看 n_fields 的值这与您的预期不同:问题出现在这些行中。

正如贾斯汀所说,一个常见的问题是不匹配的引号。打开你的 CSV 文件,看看那里的字符串是如何被引用的。然后调用 read.csv ,指定 quote争论。

关于R 的 read.csv() 省略行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11320372/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com