- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有一个包含约 100 万行和约 10 万个独特事件的 DataFrame。有 1 列 Won
,每个事件 1 行设置为 True,事件中的每一行都设置为 False。
即,
Event ID Runner ID Won
E1 R1 True
E1 R2 False
E1 R3 False
E2 R4 True
E2 R5 False
E2 R6 False
我最终想要的是一个平衡的 DataFrame,每组只有 1 个获胜者,只有 1 个非获胜者。
即,
Event ID Runner ID Won
E1 R1 True
E1 R3 False
E2 R4 True
E2 R5 False
我不关心每个项目选出哪个非获胜者,只要有 1 个获胜者,一个非获胜者即可。
对于 pandas,我已经尝试了一些东西,选择获胜者和非获胜者,
_won = df.Won
winners = df[_won]
non_winners = df[~_won]
但我所见过的每个过程,并尝试在每场比赛中选择 1 名非获胜者都非常缓慢 - 每场比赛只有几秒钟(当你有 10 万场比赛时,这在 IMO 是不合理的)。
一次性使用group
和apply
,
new_df = winners.append(
non_winners
.groupby('Event ID')
.apply(lambda grp: grp.sample(1))
遍历 groupby,
for event_id, grp in non_winners.groupby('Event ID'):
winners.append(grp.sample(1))
迭代获胜者中的事件 ID,
event_ids = set(winners['Event ID'].drop_duplicates())
for event_id in event_ids:
winners.append(
non_winners[non_winners['Event ID'] == event_id].sample(1))
但在处理 ~100 万和 ~100k 事件时,每个选项似乎都非常慢。
最佳答案
使用groupby
和head
。
df.groupby(['Event ID', 'Won']).head(1)
Event ID Runner ID Won
0 E1 R1 True
1 E1 R2 False
3 E2 R4 True
4 E2 R5 False
只要您对输出中保留的内容不挑剔,因为输出是平衡的。
还有 drop_duplicates
。
df.drop_duplicates(subset=['Event ID', 'Won'], keep='last')
# or keep='first', it doesn't matter
Event ID Runner ID Won
0 E1 R1 True
2 E1 R3 False
3 E2 R4 True
5 E2 R6 False
最后,如果你想实现混洗,预先调用sample
:
(df.sample(frac=1)
.sort_values(by=['Event ID'])
.drop_duplicates(['Event ID', 'Won'])
)
Event ID Runner ID Won
2 E1 R3 False
0 E1 R1 True
4 E2 R5 False
3 E2 R4 True
关于python - 在 pandas DataFrame 中每组选择 1 个 True,1 个 False,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51046863/
class test { public static void main(String[] args){ Object o1 = new Object(); O
我以为我理解了 Python 中的这两个单例值,直到我看到有人在代码中使用 return l1 or l2,其中 l1 和 l2 都是链表对象,并且(s)他想如果不为 None 则返回 l1,否则返回
这个问题在这里已经有了答案: Why does the expression 0 >> (True == False) is False True >>> True == (False is Fals
为什么在 Python 中它是这样评估的: >>> False is False is False True 但是当用括号尝试时表现如预期: >>> (False is False) is False
我有一个名为“apple”的表,我编写了以下查询: select name, count(name), case when istasty is null then fal
python boolean 逻辑中的运算符优先级 print(False==True or False) #answer is True print(False==(False or True))#
请不要看条件,因为它们在这里是为了便于理解行为 为什么 result 等于 true ? boolean result = false && (false)?false:true; 我知道我们可以通过
乍一看,这篇文章可能看起来像是重复的,但事实并非如此。相信我,我已经查看了所有 Stack Overflow,但都无济于事。 无论如何,我从 Html.CheckBoxFor 得到了一些奇怪的行为。
这个问题在这里已经有了答案: python operator precedence of in and comparison (4 个答案) 关闭 6 年前。 我的一位前辈演示了它,我想知道这是否是
我最近参加了 Java 的入门测试,这个问题让我很困惑。完整的问题是: boolean b1 = true; boolean b2 = false; if (b2 != b1 != b2) S
为什么 {} == false 评估为 false 而 [] == false 评估为 true在 javascript 中? 最佳答案 这是根据 Abstract Equality Comparis
这个问题在这里已经有了答案: Why does (1 in [1,0] == True) evaluate to False? (1 个回答) 关闭7年前。 为什么使用括号时这些语句按预期工作: >>
我试过搜索这个,但我真的不知道如何表达它以查看是否有其他人发布了答案。 但是,我正在制作一个国际象棋游戏和一个人工智能来配合它,这是非常困难的,我的问题是当我检查两个棋子是否在同一个团队时我必须做 (
关闭。这个问题需要debugging details .它目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and th
为什么 为 false || null 返回与 null || 不同的结果错误? 我可以安全地依赖 return myVar || false 如果 myVar 为 null 或 false,则返回
我正在尝试遵循 NHibernate 教程,“你的第一个基于 NHibernate 的应用程序:修订 #4”在 NHibernate Forge。 但线路:new SchemaExport(cfg).
这个问题在这里已经有了答案: Empty list boolean value (3 个答案) 关闭 4 年前。 我是 Python 的新手,不理解以下行为: 为什么要声明 [] == False
以下函数循环访问对象的值。如果值为空this.hasInvalidValue设置为true ,如果不为空 this.hasInvalidValue设置为false : user: { email:
所以我正在玩 java.lang.reflect 东西并尝试制作类似 this 的东西。这是我的问题(可能是一个错误): 将字段设置为 true 的方法的代码: private static void
当我在编程时,我的 if 语句出现了意想不到的结果。 这个代码警报怎么会是真的?我在 W3S 没有找到任何可以帮助我的东西,我真的很想知道为什么这些警报是“正确的” window.alert(fals
我是一名优秀的程序员,十分优秀!