gpt4 book ai didi

r - 通过子集 R 中的数据帧来缩小对象内存

转载 作者:行者123 更新时间:2023-12-04 12:32:21 25 4
gpt4 key购买 nike

所以我使用来自 https://www.kaggle.com/jiashenliu/515k-hotel-reviews-data-in-europe/downloads/515k-hotel-reviews-data-in-europe.zip/1 的数据库我不明白为什么我不能通过对数据集进行子集化来缩小对象大小

df = read.csv('Hotel_Reviews.csv')
object.size(df)

200503848 bytes


object.size(df[sample(1:nrow(df),500),])

157225848 bytes



通过取 0.1% 的数据,我只将数据缩小到 75%。我不明白为什么...

最佳答案

好吧,在更深入地研究之后,似乎是因为我的数据框是由因子组成的,甚至通过子集,它保持了空的水平

df = read.csv('Hotel_Reviews.csv',stringsAsFactors = FALSE)
object.size(df)

210584168 bytes


object.size(df[sample(1:nrow(df),500),])

394464 bytes

关于r - 通过子集 R 中的数据帧来缩小对象内存,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57240852/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com