python - 根据 Pandas 数据框中的多个变量计算概率-6ren

python - 根据 Pandas 数据框中的多个变量计算概率

转载作者：太空宇宙更新时间：2023-11-03 15:48:39

26

4

我对 Python 和 Pandas 还很陌生，所以请耐心等待......

我有一个沉船乘客的数据框。我已将其按男性和女性以及类别分解为其他数据框，以创建生存概率。我创建了一个函数，将一个数据帧与仅包含幸存者的数据帧进行比较，并计算该组中的生存概率:

def survivability(total_pass_df, column, value):
    survivors = sum(did_survive[column] == value)
    total = len(total_pass_df)
    survival_prob = round((survivors / total), 2)
    return survival_prob

但现在我正在尝试比较较小群体的生存能力 - 例如，男性头等舱乘客与女性三等舱乘客。我确实为这两个组制作了数据框，但我仍然无法使用我的生存功能，因为我正在比较两个不同的列 - 性别和类(Class) - 而不仅仅是一个。

我确切地知道如何使用 Python 来做到这一点 - 循环遍历数据框中的“幸存”列(即 1 或 0)，如果它等于 1，则将索引值加 1，然后一旦所有数据都经过，将索引值除以数据帧的长度以获得生存概率......

但是我应该使用 Pandas 来实现这一点，但我无法在脑海中计算出如何做到这一点......

:/

最佳答案

如果没有您正在使用的数据帧的示例，我无法确定我是否正确理解您的问题。但根据你对纯Python过程的描述，

I know exactly how I'd do it with Python - loop through the 'survived' column (which is either a 1 or 0), in the dataframe, if it equals 1, then add one to an index value, and once all the data has been gone through, divide the index value by the length of the dataframe to get the probability of survival....

你可以在 Pandas 中通过简单的编写来做到这一点

dataframe['survived'].mean()

就是这样。假定所有值不是 1 就是 0，平均值就是 1 的数量除以总行数。

如果您从一个包含 survived、sex、class 等列的数据框开始，您可以优雅地组合这是通过 Pandas 的 bool 索引来选择不同群体的生存率。让我使用Socialcops Titanic passengers data set为例进行演示。假设DataFrame名为df，如果你只想分析男性乘客，你可以得到这些记录:

df[df['sex'] == 'male']

然后您可以获取 that 的 survived 列并获取平均值。

>>> df[df['sex'] == 'male']['survived'].mean()
0.19198457888493475

因此，19% 的男性乘客幸存。如果您想缩小范围为男性二等舱乘客，则需要使用 & 组合条件，如下所示:

>>> df[(df['sex'] == 'male') & (df['pclass'] == 2)]['survived'].mean()
0.14619883040935672

这有点笨拙，但有一种更简单的方法实际上可以让您同时执行多个类别。 (问题是，这是一种更先进的 Pandas 技术，可能需要一段时间才能理解它。)使用 DataFrame.groupby()方法，您可以告诉 Pandas 根据某些列中的值对数据框的行进行分组。例如，

df.groupby('sex')

告诉 Pandas 按性别对行进行分组:所有男性乘客的记录都在一组中，所有女性乘客的记录都在另一组中。您从groupby()获得的东西不是DataFrame，它是一种特殊类型的对象，可让您应用聚合函数 - 即采用整个组和把它变成一个数字(或其他东西)。因此，例如，如果您这样做

>>> df.groupby('sex').mean()
          pclass  survived        age     sibsp     parch       fare  \
sex                                                                    
female  2.154506  0.727468  28.687071  0.652361  0.633047  46.198097   
male    2.372479  0.190985  30.585233  0.413998  0.247924  26.154601   

             body  
sex                
female  166.62500  
male    160.39823

您会看到，对于每一列，Pandas 取该列所有值的男性乘客记录以及所有女性乘客记录的平均值。您在这里关心的只是生存率，所以只需使用

>>> df.groupby('sex').mean()['survived']
sex
female    0.727468
male      0.190985

这样做的一大优点是，如果您想查看小组，您可以提供多个列作为分组依据。例如，性别和类(Class):

>>> df.groupby(['sex', 'pclass']).mean()['survived']
sex     pclass
female  1         0.965278
        2         0.886792
        3         0.490741
male    1         0.340782
        2         0.146199
        3         0.152130

(如果您提供多个列名称，则必须为 groupby 提供一个列名称列表)

关于python - 根据 Pandas 数据框中的多个变量计算概率，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41531930/

26

4

0

文章推荐： python-2.7 在对象导入时执行代码

文章推荐： python - xpath

里面

空

文章推荐： python - Python中的嵌套函数调用

服务器端的 Firebird 计算(计算)字段
SQL 和一般开发的新手，我有一个表(COUNTRIES)，其中包含字段(INDEX、NAME、POPULATION、AREA) 通常我添加一个客户端(Delphi)计算字段(DENSITY)和 On
jquery - 计算(百分比)计算(像素)
我想使用 calc(100%-100px)，但在我的 demo 中不起作用由于高度只接受像素，因此如何将此百分比值转换为像素。最佳答案以下将为您提供高度: $(window).height();
MySql 计算
我正在尝试在 MySQL 中添加列并动态填充其他列。例如我有一张表“数字”并具有第 1 列、第 2 列、第 3 列，这些总数应填充在第 4 列中最佳答案除非我误解了你的问题，否则你不只是在寻找:
mysql - 计算
我想返回简单计算的结果，但我不确定如何执行此操作。我的表格如下: SELECT COUNT(fb.engineer_id) AS `total_feedback`, SUM(fb.ra
嵌套for循环中的c++计算
我一直在尝试做这个程序，但我被卡住了，我仍然是一个初学者，任何帮助将不胜感激。我需要程序来做打印一个 10 X 10 的表格，其中表格中的每个条目都是行号和列号的总和包含一个累加器，用于计算所有表
c - 计算
这个计算背后一定有一些逻辑。但我无法得到它。普通数学不会导致这种行为。谁能帮我解释一下原因 printf ("float %f\n", 2/7 * 100.0); 结果打印 1.000000 为什么会
计算 AND 的算法
我想计算从 0 到 (n)^{1/2} - 1 的数字的 AND每个数字从 0 到 (n)^{1/2} - 1 .我想在 O(n) 中执行此操作时间，不能使用 XOR、OR、AND 运算。具体来说，
Excel - 在数字格式中使用公式/计算
如何在 Excel 中将公式放入自定义数字格式？例如(出于说明目的随机示例)，假设我有以下数据: 输入输出在不编辑单元格中的实际数据的情况下，我想显示单元格中的值除以 2，并保留两位小数: 有没
Flutter:隔离内存泄漏(计算)
每次我在 Flutter 应用程序中调用计算()时，我都会看到内存泄漏，据我所知，这基本上只是一种生成隔离的便捷方法。我的应用程序内存占用增加并且在 GC 之后永远不会减少。我已将我的代码简化为仅调
R中的RMSE(均方根偏差)计算
我有数字特征观察 V1通过 V12用于目标变量 Wavelength .我想计算 Vx 之间的 RMSE列。数据格式如下。每个变量“Vx”以 5 分钟的间隔进行测量。我想计算所有 Vx 变量的观测值
计算 C 文件中未知数量的字符
我正在寻找一种使用 C 语言计算文件中未知字符数的简单方法。谢谢你的帮助最佳答案 POSIX 方式(可能是您想要的方式): off_t get_file_length( FILE *file ) {
sql - 计算/派生连续日期跨度中的第一个开始日期
我正在使用 Postgres，并且我正试图围绕如何在连续日期跨度中得出第一个开始日期的问题进行思考。例如 :- ID | Start Date | End Date =================
jquery - 计算，用逗号替换点
我有一个订单表格，我在其中使用 jQuery 计算插件来汇总总数。此求和工作正常，但生成的“总和”存在问题。总之，我希望用逗号替换任何点。代码的基础是； function ($this) {
Delphi错误的 double 计算
我在使用 double 变量计算简单算术方程时遇到问题。我有一个具有 double 属性 Value 的组件，我将此属性设置为 100。然后我做一个简单的减法来检查这个值是否真的是 100: va
openssl CRC32 计算
我在这里看到了一些关于 CRC 32 计算的其他问题。但没有一个让我满意，因此是这样。 openssl 库是否有任何用于计算 CRC32 的 api 支持？我已经在为 SHA1 使用 openssl，
php - 计算-1个月时的PHP天错误
当我在PHP日期计算中遇到问题时，我感到惊讶。 $add = '- 30 days'; echo date('Y-m-01', strtotime($add)); // result is 2017-
持有变量的 JavaScript 计算
我正在使用 javascript 进行练习，我编写了这个脚本来计算 2 个变量的总和，然后在第三个方程中使用这个总和!关于如何完成这项工作的任何想法都将非常有用! First Number:
audio - sample 计算
我有一个来自EAC的提示单和一个包含完整专辑的FLAC文件。我正在尝试制作一些python脚本来播放文件，因为我需要能够设置在flac文件中开始的位置。如何从CueSheet格式MM:SS:FF转
javascript - 计算 for 循环中输入值的总和
这个问题已经有答案了: Adding two numbers concatenates them instead of calculating the sum (24 个回答) 已关闭去年。我有一个
使用输入和跨度字段的 Javascript 计算
4000 我需要上面字段 name="quantity" 和 id="price" 中的值，并使用 javascript 函数进行计算，并将其显示在字段 id= 中仅当我单击计算按钮时才显示“总

首页

博学

6Ren·AI

商城

python - 根据 Pandas 数据框中的多个变量计算概率

空