python - 在 pandas DataFrame 中每组选择 1 个 True，1 个 False-6ren

python - 在 pandas DataFrame 中每组选择 1 个 True，1 个 False

转载作者：太空宇宙更新时间：2023-11-04 08:33:34

25

4

我有一个包含约 100 万行和约 10 万个独特事件的 DataFrame。有 1 列 Won，每个事件 1 行设置为 True，事件中的每一行都设置为 False。

即，

Event ID  Runner ID  Won
 E1        R1        True
 E1        R2        False
 E1        R3        False
 E2        R4        True
 E2        R5        False
 E2        R6        False

我最终想要的是一个平衡的 DataFrame，每组只有 1 个获胜者，只有 1 个非获胜者。

即，

Event ID  Runner ID  Won
 E1        R1        True
 E1        R3        False
 E2        R4        True
 E2        R5        False

我不关心每个项目选出哪个非获胜者，只要有 1 个获胜者，一个非获胜者即可。

对于 pandas，我已经尝试了一些东西，选择获胜者和非获胜者，

_won = df.Won
winners = df[_won]

non_winners = df[~_won]

但我所见过的每个过程，并尝试在每场比赛中选择 1 名非获胜者都非常缓慢 - 每场比赛只有几秒钟(当你有 10 万场比赛时，这在 IMO 是不合理的)。

一次性使用group 和apply，

new_df = winners.append(
    non_winners
    .groupby('Event ID')
    .apply(lambda grp: grp.sample(1))

遍历 groupby，

for event_id, grp in non_winners.groupby('Event ID'):
    winners.append(grp.sample(1))

迭代获胜者中的事件 ID，

event_ids = set(winners['Event ID'].drop_duplicates())
for event_id in event_ids:
    winners.append(
        non_winners[non_winners['Event ID'] == event_id].sample(1))

但在处理 ~100 万和 ~100k 事件时，每个选项似乎都非常慢。

最佳答案

使用groupby 和head。

df.groupby(['Event ID', 'Won']).head(1)

  Event ID Runner ID    Won
0       E1        R1   True
1       E1        R2  False
3       E2        R4   True
4       E2        R5  False

只要您对输出中保留的内容不挑剔，因为输出是平衡的。

还有 drop_duplicates。

df.drop_duplicates(subset=['Event ID', 'Won'], keep='last') 
# or keep='first', it doesn't matter

  Event ID Runner ID    Won
0       E1        R1   True
2       E1        R3  False
3       E2        R4   True
5       E2        R6  False

最后，如果你想实现混洗，预先调用sample:

(df.sample(frac=1)
   .sort_values(by=['Event ID'])
   .drop_duplicates(['Event ID', 'Won'])
)

  Event ID Runner ID    Won
2       E1        R3  False
0       E1        R1   True
4       E2        R5  False
3       E2        R4   True

关于python - 在 pandas DataFrame 中每组选择 1 个 True，1 个 False，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51046863/

25

4

0

文章推荐： javascript - 模态关闭按钮不起作用

文章推荐： java - 从 JCA 迁移到 OSGI 是个好主意吗？

文章推荐： css - 如何更改 MVVM 中网格列的颜色？

java - 为什么这个打印只有 "false"而不是 "false false"？
class test { public static void main(String[] args){ Object o1 = new Object(); O
python - 如何理解Python中 `None or False`、 `False or None`、 `None and False`、 `False and None`的结果？
我以为我理解了 Python 中的这两个单例值，直到我看到有人在代码中使用 return l1 or l2，其中 l1 和 l2 都是链表对象，并且(s)他想如果不为 None 则返回 l1，否则返回
python - 为什么 `True == False is False` 评估为 False？
这个问题在这里已经有了答案: Why does the expression 0 >> (True == False) is False True >>> True == (False is Fals
python - 为什么 `False is False is False` 评估为 `True` ？
为什么在 Python 中它是这样评估的: >>> False is False is False True 但是当用括号尝试时表现如预期: >>> (False is False) is False
postgresql - 在 Postgresql 中，分组后，如果某一列的任何值为 false，则返回 false。如果所有值都为true/false，则分别返回true/false
我有一个名为“apple”的表，我编写了以下查询: select name, count(name), case when istasty is null then fal
python - : False==(False or True) is False? 在 python 中到底意味着什么
python boolean 逻辑中的运算符优先级 print(False==True or False) #answer is True print(False==(False or True))#
java - 为什么 false && (false)?false :true return true
请不要看条件，因为它们在这里是为了便于理解行为为什么 result 等于 true ？ boolean result = false && (false)?false:true; 我知道我们可以通过
c# - MVC 5 复选框返回 “False,false” 或 “false”
乍一看，这篇文章可能看起来像是重复的，但事实并非如此。相信我，我已经查看了所有 Stack Overflow，但都无济于事。无论如何，我从 Html.CheckBoxFor 得到了一些奇怪的行为。
python - 为什么 [False] 中的 False==False 返回 True？
这个问题在这里已经有了答案: python operator precedence of in and comparison (4 个答案) 关闭 6 年前。我的一位前辈演示了它，我想知道这是否是
java - (true != false != true) 与 (false != true != false) 有何不同？
我最近参加了 Java 的入门测试，这个问题让我很困惑。完整的问题是: boolean b1 = true; boolean b2 = false; if (b2 != b1 != b2) S
javascript - 为什么 {} == false 评估为 false 而 [] == false 评估为 true？
为什么 {} == false 评估为 false 而 [] == false 评估为 true在 javascript 中？最佳答案这是根据 Abstract Equality Comparis
python - 为什么 `True is False == False` 在 Python 中为 False？
这个问题在这里已经有了答案: Why does (1 in [1,0] == True) evaluate to False? (1 个回答) 关闭7年前。为什么使用括号时这些语句按预期工作: >>
Java，False && False 解决方法
我试过搜索这个，但我真的不知道如何表达它以查看是否有其他人发布了答案。但是，我正在制作一个国际象棋游戏和一个人工智能来配合它，这是非常困难的，我的问题是当我检查两个棋子是否在同一个团队时我必须做 (
c# - 如何让 Newtonsoft 将 bool 序列化为 false，而不是 False 或 "false"
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
javascript - 为什么 (false || null) 返回 null，而 (null || false) 返回 false？
为什么为 false || null 返回与 null || 不同的结果错误? 我可以安全地依赖 return myVar || false 如果 myVar 为 null 或 false，则返回
NHibernate new SchemaExport(cfg).Execute(false, true, false, false);没有第四个 bool 参数
我正在尝试遵循 NHibernate 教程，“你的第一个基于 NHibernate 的应用程序:修订 #4”在 NHibernate Forge。但线路:new SchemaExport(cfg).
python - 为什么 [] == False 在 python 中评估为 False 而 0 == False 评估为 True？
这个问题在这里已经有了答案: Empty list boolean value (3 个答案) 关闭 4 年前。我是 Python 的新手，不理解以下行为: 为什么要声明 [] == False
javascript - 如果循环中至少有一个元素返回 false，如何将变量设置为 false？
以下函数循环访问对象的值。如果值为空this.hasInvalidValue设置为true ，如果不为空 this.hasInvalidValue设置为false : user: { email:
java - Boolean.FALSE 不等于 false
所以我正在玩 java.lang.reflect 东西并尝试制作类似 this 的东西。这是我的问题(可能是一个错误): 将字段设置为 true 的方法的代码: private static void
javascript - (false == false == true) 怎么可能是真的
当我在编程时，我的 if 语句出现了意想不到的结果。这个代码警报怎么会是真的？我在 W3S 没有找到任何可以帮助我的东西，我真的很想知道为什么这些警报是“正确的” window.alert(fals

首页

博学

6Ren·AI

商城

python - 在 pandas DataFrame 中每组选择 1 个 True，1 个 False