gpt4 book ai didi

python - 使用 Pandas 使用特定列的权重对 DataFrame 进行采样

转载 作者:太空狗 更新时间:2023-10-30 00:54:04 25 4
gpt4 key购买 nike

我有一个 DataFrame,它看起来像:

  index  name   city
0 Yam Hadera
1 Meow Hadera
2 Don Hadera
3 Jazz Hadera
4 Bond Tel Aviv
5 James Tel Aviv

我希望 Pandas 使用 city 列中出现的次数随机选择值(使用类型:df.city.value_counts()),所以我的魔法函数的结果,假设:

df.magic_sample(3, weight_column='city')

可能看起来像:

  0     Yam      Hadera
1 Meow Hadera
2 Bond Tel Aviv

谢谢! :)

最佳答案

您可以按城市分组,然后根据与原始数据框长度相比的长度对每个组进行采样:

df.groupby('city', group_keys=False).apply(lambda g: g.sample(3 * len(g)/len(df)))

enter image description here

关于python - 使用 Pandas 使用特定列的权重对 DataFrame 进行采样,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41528513/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com