gpt4 book ai didi

pandas - 基于列中的值采样 Pandas 数据框

转载 作者:行者123 更新时间:2023-12-03 15:19:15 26 4
gpt4 key购买 nike

我有一个大型数据框,我想根据 target 上的值进行采样列值,二进制:0/1

我想在“目标”列中提取相同数量的具有 0 和 1 的行。我正在考虑使用 Pandas 采样函数,但不确定如何根据 target 为数据框声明我想要的两个类中相同数量的样本。柱子。

我正在考虑使用这样的东西:

df.sample(n=10000, weights='target', random_state=1)

不知道如何编辑它以获得 5k 的 10k 条记录 1's和 5k 0'starget柱子。任何帮助表示赞赏!

最佳答案

您可以按目标对数据进行分组,然后进行采样,

df = pd.DataFrame({'col':np.random.randn(12000), 'target':np.random.randint(low = 0, high = 2, size=12000)})
new_df = df.groupby('target').apply(lambda x: x.sample(n=5000)).reset_index(drop = True)

new_df.target.value_counts()

1 5000
0 5000

关于pandas - 基于列中的值采样 Pandas 数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56191448/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com