gpt4 book ai didi

python - Pandas 数据框的样本行与列中的计数成比例

转载 作者:太空狗 更新时间:2023-10-29 22:07:28 32 4
gpt4 key购买 nike

我有一个包含大约 10,000,000 行的大型 pandas 数据框。每一个代表一个特征向量。特征向量以自然组的形式出现,组标签位于名为 group_id 的列中.我想随机抽样 10%说行,但与每个行的数量成比例 group_id .

例如,如果 group_id'sA, B, A, C, A, B那么我希望一半的采样行具有 group_id A ,六分之二有group_id B和六分之一有group_id C .

我可以看到 pandas 函数 sample但我不确定如何使用它来实现这个目标。

最佳答案

你可以使用 groupby 和 sample

sample_df = df.groupby('group_id').apply(lambda x: x.sample(frac=0.1))

关于python - Pandas 数据框的样本行与列中的计数成比例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46026935/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com