gpt4 book ai didi

python - 从 Pandas 数据框中提取子集以确保不重叠?

转载 作者:太空宇宙 更新时间:2023-11-04 11:07:55 25 4
gpt4 key购买 nike

假设我有 2 个 Pandas 数据帧 df,尺寸为 297232 x 122df_raw 尺寸为 840380x122df 已经是 df_raw 的子集。两个数据帧的索引都是 DateTime。我想从 df 中采样 70% 的值,从 df_raw 中采样 30% 的值(可以是如果需要随机采样),同时确保采样的数据帧子集在索引方面没有重叠。

更准确地说,df_subset 将有 70%df 中随机选择的值,而 df_raw_subset30%df_raw 中随机选择值,但 df_subsetdf_raw_subset 不应包含重叠的行采样,即它们应该具有唯一的 DateTime 索引。

最佳答案

所以首先我们从 df 中采样,因为尺寸很小,当我们将来从另一个更大的 df 中删除它时,我们不会有问题:没有足够的数据指向 示例

df_sub=df.sample(frac=0.7, replace=False)

然后我们通过df_sub删除df_raw中的索引

n=int(len(df_raw)*0.3)
df_raw_sub=df_raw.drop(df_sub.index).sample(n,replace=False)

关于python - 从 Pandas 数据框中提取子集以确保不重叠?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58985006/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com