python - pandas 相当于 .rda/.rdata-6ren

python - pandas 相当于 .rda/.rdata

转载作者：行者123 更新时间：2023-12-01 01:51:33

25

4

我有一个大约 1000 列的大型数据框。在完成所有缺失值处理并将数据类型更改为我想要的内容之后，我已经能够将该数据框的大小减少到几乎一半。我通过将大量 int64 更改为 int16 并将对象更改为类别来做到这一点。

在 R 中执行类似操作后，我可以将这个新数据帧保存为 .rda 格式，然后将其加载回来。这有助于我在完成所有操作后直接获取格式中的所有变量。有没有办法可以将其保存在 python 中，然后重新加载这种特定的数据格式，以便维护数据类型？

附注- 写入 csv 并将其加载回来让我再次做一些工作。

最佳答案

设置

df = pd.DataFrame(dict(A=[1, 2, 3], B=list('XYZ')))
df.A = df.A.astype(np.int16)
df.B = pd.Categorical(df.B)

df

   A  B
0  1  X
1  2  Y
2  3  Z

<小时/>

df.dtypes

A       int16
B    category
dtype: object

<小时/>

您可以使用`pandas.DataFrame.to_hdf`

保存到hdf
使用 format='table' 因为来自分类的 NotImplementedError

df.to_hdf('small.h5', 'this_df', format='table')

回读

df1 = pd.read_hdf('small.h5', 'this_df')

df1

   A  B
0  1  X
1  2  Y
2  3  Z

检查数据类型

df.dtypes

A       int16
B    category
dtype: object

检查等价性

df1.equals(df)

True

<小时/>

使用 `Feather`

您可能需要安装feather-format

conda install feather-format -c conda-forge

或者

pip install -U feather-format

然后

df.to_feather('small.feather')

df1 = pd.read_feather('small.feather')

df1.equals(df)

True

feather 的优点是您也应该能够在 R 中读取它们，并且读写速度应该非常快。

<小时/>

粗略时间比较

%timeit pd.read_feather('small.feather')
%timeit pd.read_hdf('small.h5', 'this_df')

842 µs ± 11.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
23.2 ms ± 479 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

关于python - pandas 相当于 .rda/.rdata，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50663164/

25

4

0

文章推荐： python - 如何通过curl向couchDB中插入数百万文档？

文章推荐： python - 更改 SVG Python 中的路径类名称

文章推荐： jquery - 创建过渡时显示加载消息

r - 将包含同名对象的多个 .RData 文件合并为一个 .RData 文件
我有很多 .RData 文件，其中包含我在之前的分析中保存的一个数据框，并且每个加载的文件的数据框都具有相同的名称。因此，例如使用 load(file1.RData) 我得到一个名为 'df' 的数据
r - 在 Rdata 中保存矩阵并更新 Rdata 文件
我有一个矩阵: mat<-matrix(data=1:30,ncol=10,nrow=3) 我想将其保存到 Rdata: save(mat, file="m.Rdata") 然后加载回来: m<-lo
rdata:某种方法来遍历数据框的列名？
我有大约 30 行代码可以做到这一点(获得 Z 分数): data$z_col1 <- (data$col1 - mean(data$col1, na.rm = TRUE)) / sd(data$co
替换 .Rdata 文件中的数据
有没有办法可以用另一个替换 .Rdata 文件中的表？我可以使用 edit(x) 命令来编辑它，但是手动执行此操作会花费大量时间；此外，我还没有找到向其中添加行的方法。最佳答案我认为您需要阅读一些
r - 如何更新 .RData？
看完this question我试图清理我的工作区，发现每次打开 R 时，我最近删除的所有原始项目都会恢复。然后我检查了 .RData ，发现它在几周内没有被修改，尽管我反复保存了工作区图像。 .RD
循环从 .Rdata 文件中读取数据集
假设我们有这种情况: 我有很多 .RData 文件，它们超过 100mb(无论如何，但很大)。在每个 .RData 文件中都有一个名为“Dataset_of_interest”的数据集，它们都是我想
r - 从github直接加载.RData
我要加载 PakPMICS2018bh.RData数据来自 https://github.com/myaseen208/PakPMICS2018Data/并使用以下代码引发错误: library(RC
r - 将个别选择的全局环境保存到 Rdata
当我们想要将全局环境保存到磁盘时，我们使用 save(list = ls(.GlobalEnv), file = "data.Rdata") - 好的。当需要保存一个特定对象时，我们使用 save(
r - 如何将数据文件保存为.RData？
我想将数据保存到 .RData 文件中。例如，我想将两个 csv 文件和一些信息保存到 1.RData 中。这里，我有两个 csv 文件 1) file_1.csv contains object
r - 如何对内存过大的 RData 文件进行子集化？
我有一个 RData 文件，它变得太大，无法使用 load() 加载到我的计算机上。命令。它包含一个包含约 300 万个观测值和约 100 个变量的数据框。我想要加载文件，也许使用一些 bigda
R 密码保护 .rdata 数据文件
我正在尝试保护我保存在 R 中的一些数据文件。有没有办法用密码保护 R 数据文件 (.Rdata) ？谢谢最佳答案在同一脚本中创建文件后，您可以调用 GnuPG 以使用公钥加密来加密文件。这将另
r - 在函数内加载 Rdata 文件
我有一个函数，我必须将数据集传递给它。 loading <- function(dataset){ merchants <- load(dataset) return(merchants) } 但是当
r - 加载 .RData 时生成的相同随机数据
当加载 .RData 文件时，每次都会生成相同的随机数。例如试试这个:(在终端中输入这些) rm(list=ls()) x=10 #Just some random value save.image(
r - 将数据从 RData 文件加载到单个数据表中
我正在尝试将指定目录中所有 .RData 文件的data frame 对象的数据加载到单个数据表。这就是我尝试这样做的方式: library(data.table) fileList str(dat
r - 如何将 .Rdata 格式转换为文本文件格式
我是 R 的新手，我正在尝试将 .Rdata 格式文件转换为逗号分隔的文本文件格式。有人可以帮我解决这个问题吗？最佳答案 load("yourData.RData") ls() #returns a
r - 从 Rdata 文件中获取特定对象
我有一个包含各种对象的Rdata文件: New.Rdata |_ Object 1 (e.g. data.frame) |_ Object 2 (e.g. matrix) |_...
r - 如何查看.RData 文件中的数据？
我必须加载 isfar.RData 文件才能将其用于其他计算(此处描述并不重要)。我想简单地看看 isfar.RData 文件中的数据如何，例如它携带什么数字、列、行。首先我加载我的文件: isfa
r - 使用变量名中的字符串将变量保存在 Rdata 文件中
我有一个矢量 a=0.01 然后我创建一个 mat a = 1 > get('a') [1] 1 与save一起使用: to_be_saved_obj = paste("mat", a, sep =
r - 更新现有 Rdata 文件
我发现自己需要更新之前使用 save 创建的 Rdata 文件中的一两个数据对象。如果我不小心加载文件，我可能会忘记重新保存文件中的一些对象。举个例子，我正在开发一个包，其中包含一些存储在 sysda
R 无法保存到 PRN.rData
如果您尝试将任何数据集保存到“PRN.rData”，您将收到错误消息: d<- data.frame(D=NA, K=NA) save(d, file="E:/PRN.rData") Error in

首页

博学

6Ren·AI

商城

python - pandas 相当于 .rda/.rdata

设置

您可以使用`pandas.DataFrame.to_hdf`

使用 `Feather`

粗略时间比较

首页

博学

6Ren·AI

商城

python - pandas 相当于 .rda/.rdata

设置

您可以使用pandas.DataFrame.to_hdf

使用 Feather

粗略时间比较

您可以使用`pandas.DataFrame.to_hdf`

使用 `Feather`