python - Pandas crosstab() 函数与包含 NaN 值的数据框的混淆行为-6ren

python - Pandas crosstab() 函数与包含 NaN 值的数据框的混淆行为

转载作者：太空狗更新时间：2023-10-30 02:18:55

27

4

我将 Python 3.4.1 与 numpy 0.10.1 和 pandas 0.17.0 一起使用。我有一个大型数据框，其中列出了个体动物的物种和性别。这是一个真实世界的数据集，不可避免地存在由 NaN 表示的缺失值。数据的简化版本可以生成为:

import numpy as np
import pandas as pd
tempDF = pd.DataFrame({ 'id': [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20],
                        'species': ["dog","dog",np.nan,"dog","dog","cat","cat","cat","dog","cat","cat","dog","dog","dog","dog",np.nan,"cat","cat","dog","dog"],
                        'gender': ["male","female","female","male","male","female","female",np.nan,"male","male","female","male","female","female","male","female","male","female",np.nan,"male"]})

打印数据框给出:

    gender  id species
0     male   1     dog
1   female   2     dog
2   female   3     NaN
3     male   4     dog
4     male   5     dog
5   female   6     cat
6   female   7     cat
7      NaN   8     cat
8     male   9     dog
9     male  10     cat
10  female  11     cat
11    male  12     dog
12  female  13     dog
13  female  14     dog
14    male  15     dog
15  female  16     NaN
16    male  17     cat
17  female  18     cat
18     NaN  19     dog
19    male  20     dog

我想使用以下内容生成一个交叉表来显示每个物种的雄性和雌性数量:

pd.crosstab(tempDF['species'],tempDF['gender'])

这会产生下表:

gender   female  male
species              
cat           4     2
dog           3     7

这是我所期望的。但是，如果我包含 margins=True 选项，它会产生:

pd.crosstab(tempDF['species'],tempDF['gender'],margins=True)

gender   female  male  All
species                   
cat           4     2    7
dog           3     7   11
All           9     9   20

如您所见，边际总数似乎不正确，可能是数据框中缺少数据造成的。这是有意的行为吗？在我看来，这似乎很困惑。当然，边际总计应该是表中出现的行和列的总计，并且不包括表中未显示的任何缺失数据。包括 dropna=False 不会影响结果。

我可以在创建表之前删除带有 NaN 的任何行，但这似乎是很多额外的工作，并且在进行分析时需要考虑很多额外的事情。我应该将此报告为错误吗？

最佳答案

我想一种解决方法是在创建表之前将 NaN 转换为“缺失”，然后交叉管将包括专门针对缺失值的列和行:

pd.crosstab(tempDF['species'].fillna('missing'),tempDF['gender'].fillna('missing'),margins=True)

gender   female  male  missing  All
species                            
cat           4     2        1    7
dog           3     7        1   11
missing       2     0        0    2
All           9     9        2   20

就个人而言，我希望看到默认行为，这样我就不必记住在每个交叉表计算中替换所有 NaN。

关于python - Pandas crosstab() 函数与包含 NaN 值的数据框的混淆行为，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33303314/

27

4

0

文章推荐： python - 换行符和破折号在神社中无法正常工作

文章推荐： python - 围绕现有数据库的 Flask sqlalchemy 示例

文章推荐： python - matplotlib 中同一循环的两个不同图？

文章推荐： python - 无法将 spark 数据框列与 df.withColumn() 合并

javascript - (NaN != NaN) 和 (NaN !== NaN) 有什么区别？
首先我想说的是，我知道isNaN()和 Number.isNaN()工作。我正在阅读 David Flanagan 的 The Definite Guide，他举例说明了如何检查值是否为 NaN :
javascript - 如何摆脱 NaN/NaN/NaN
在表中，对于 skips day 列，最后一行的默认值始终是单词“last”，它不是数字。现在，结果日期显示为“NaN/NaN/NaN”，有什么方法可以将其替换为 Nil 之类的东西。非常感谢。
Javascript 获取 NaN :NaN:NaN
我正在制作一个网站，如果用户登录，则会为用户提供一定的注销时间，其中定义了注销时间，剩余时间是从注销时间 - 服务器时间获得的。我已经通过 PHP 获得了注销时间和服务器时间，但我想动态显示剩余时间
ios - 什么可能导致此 "Fatal Exception: CALayerInvalidGeometry CALayer bounds contains NaN: [nan nan; nan nan]"崩溃？
我有以下代码，它简单地初始化一个 UIImageView 以适应 UIImage 在当前屏幕尺寸上尽可能大的比例: CGSize mainScreenSize = [appDelegate mainS
python - 为什么 (nan,)==(nan,) 为 True，而 nan==nan 为 False？
这个问题已经有答案了: Why in numpy `nan == nan` is False while nan in [nan] is True? (1 个回答) 已关闭 3 年前。我只是觉得这有
javascript - 将 JqGrid 列模式显示为日期和超链接显示 NAN/NAN/NAN
我有动态 JQGrid，其中一列是日期列。我从包含 URL 和日期的 feed 中获取数据。我需要为“日期列”开发列模型，使其显示日期和超链接。但不幸的是，数据显示为 NAN/NAN/NAN (这可
java - map(NaN) 返回 NaN 但我无法调试 NaN
我已经包含了一个演示我的问题的片段。基本上处理给了我这个错误: 调用map(NaN, -3, 3, -125, 125)，返回NaN(不是数字) 我理解此消息的方式是，map 函数返回 NaN，并且由
javascript - 过滤日期在 AngularJS 中返回 NaN-NaN-NaN
我在下面创建的过滤器适用于 Chrome，但不适用于 Firefox。我不明白为什么。 myApp.filter('dateCustom', [ '$filter', function ($fil
python - 为什么在 numpy `nan == nan` 中为 False 而 [nan] 中的 nan 为 True？
虽然问题的第一部分(在标题中)之前已经回答过几次(即 Why is NaN not equal to NaN? )，但我不明白为什么第二部分会以它的方式工作(受此启发问题 How to Check l
c# - 如何使用泛型测试 NaN(或者为什么 NaN.Equals(NaN) == true)？
我需要在数组中找到min和max值(不考虑可能的NaN值在这个数组中)。这只使用 double 会很容易，但是这些 FindMin 和 FindMax 函数必须使用泛型类型。我尝试以这种方式测
ios - 'CALayer 位置包含 NaN : [nan nan]' on UIScrollView
我正在开发一个屏幕，其中 UIScrollView 内只有一个 UIImageView。 UIScrollView 使用户能够固定和缩放图像。我从下面的帖子中得到了帮助。它使用 Storyboard和
ios - Swift:CALayer 边界包含 NaN:[nan nan;南南]？
尽管看到了类似的答案，但我不知道这里发生了什么。我制作了一个自定义的 UIImageview，它应该在创建后立即开始动画: class HeaderAnimator: UIImageView {
python - Pandas :用下一个非 NaN/# 连续 NaN 填充 NaN
我正在寻找一个 pandas 系列并用下一个数值的平均值填充 NaN，其中:average = next numerical value/(# consecutive NaNs + 1) 到目前为止，
javascript - jQuery UI $.datepicker.formatDate 返回 NaN NaN Nan
我有一个 mySql 表，其中有一个名为 posts 的列，该列设置为 timestamp 类型，默认为 current_timestamp。然后，我使用 php PDO 获取它的值(以及其他一些列)
c++ - NAN 差异 - std::nan 与 quiet_NaN() 与宏 NAN
我想知道以下类型的 nan 之间有什么区别。除了 NAN_macro (计算结果为 -nan(ind) 而不是 nan )的视觉差异外，它们的行为似乎都相同(根据下面的示例脚本)。我看了一些其他的答
javascript - 如何解析 NaN :NaN:NaN error in Mozilla Firefox and IE
我为我的网页做了倒计时；它在除 Mozilla 和 IE 之外的所有浏览器上都能正常工作。我做错了什么，我该如何解决？下面是我的代码: ***var dt = '2018-06-14 11:59
ios - 调试 'CALayer position contains NaN: [nan nan]'
在将 Xcode 更新到 8.3 后，我在启动时开始收到此错误:由于未捕获的异常“CALayerInvalidGeometry”而终止应用程序，原因:“CALayer 位置包含 NaN:[nan na
javascript - 如果 Date 为空格式 date() 返回 NaN/NaN/NaN 而不是没有值
我正在使用 jquery 自动完成 onselect 它在不同的文本字段中显示数据。我使用 format_date() 函数在 #dob 和 #anniversery 中显示格式化日期 select:
javascript - IE8 中 Ext JS 网格日期值的 NaN.NaN.NaN 值
我有一个带有 json Store 和 DateField 的网格。 Firefox 运行良好，但在 Internet Explorer 8 中无法运行。我这样定义: function conver
objective-c - 如何解决CALayerInvalidGeometry'，原因: 'CALayer position contains NaN: [nan nan]?
我有一个错误，它在启动时使应用程序崩溃。这是我得到的错误: *** Terminating app due to uncaught exception 'CALayerInvalidGeometry'

首页

博学

6Ren·AI

商城

python - Pandas crosstab() 函数与包含 NaN 值的数据框的混淆行为