python - 如何在 Pandas 中执行相当于相关子查询的操作-6ren

python - 如何在 Pandas 中执行相当于相关子查询的操作

转载作者：行者123 更新时间：2023-11-28 17:17:12

我有一个来自 Kaggle 泰坦尼克号竞赛的 CSV 文件，如下所示。该文件的记录格式由以下列描述:PassengerId, Survived, Pclass, Name, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, Embarked.我想分析这个文件中的数据，看看跟团旅行的乘客是否有更好的生存率。为此，我假设 Ticket 的值对于一组中的所有乘客都是相同的。

我在 MS Access 中加载了 CSV，并执行了以下查询以获得所需的结果集:

SELECT a.Ticket, a.PassengerId, a.Survived
FROM train a
WHERE 1 < (SELECT COUNT(*) FROM train b WHERE b.Ticket = a.Ticket)
ORDER BY a.Ticket

如果不编写循环，我无法提取与上面相同的结果集。

最佳答案

让我们看看这是否匹配:

df.groupby(['Ticket']).filter(lambda x: x.Ticket.count()>1)[['Ticket','PassengerId','Survived']]

或者根据 Jezrael 的建议:

df.groupby(['Ticket']).filter(lambda x: len(x)>1)[['Ticket','PassengerId','Survived']]

我在 Tickets 上使用 groupby，然后使用 filter 将我的数据框过滤到该票证组中的计数大于 1 的那些记录。

关于python - 如何在 Pandas 中执行相当于相关子查询的操作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43574675/

文章推荐： python - Pandas 数据框的一列中每种类型的标签的计数

文章推荐： python - Pandas df 使用 flask-sqlalchemy 到数据库

文章推荐： python - 如何将系列添加到 DataFrame 中有自定义索引

文章推荐： python - CPython 是否实现了 PEP 380 中提到的优化？

embedded - ICSP SendCommand header 中第 4 位的 TDO 是什么意思？ (PIC32MX、ICSP 2 线 4 相)
现在我正在尝试实现 flash programming specification对于 PIC32MX。我正在使用 PIC32MX512L 和 PIC32MX512H。 PIC32MX512L最终必须

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何在 Pandas 中执行相当于相关子查询的操作