python - Pandas 分组索引 : nan conflicts or take only value-6ren

python - Pandas 分组索引 : nan conflicts or take only value

转载作者：行者123 更新时间：2023-12-04 08:13:08

25

4

我正在通过 pandas 处理一些数据这可能会有一些我需要处理的不一致之处。数据是值的时间序列:

                     A     B      C
YYYY MM DD hh mm                                
2017 8  20 23 0      1   2.0    NaN
              10     2   4.0    NaN
              20     3   6.0    NaN
              30     4   8.0    NaN
...                ...   ...    ...
2019 6  4  10 10   100   100    NaN
              20   200   102    NaN
              30   300   104    NaN
              40   400   106    NaN
              50   500   108      0

数据可能存在的不一致是同一 ["YYYY", "MM", "DD", "hh", "mm"] 的多个条目指数。在大多数情况下，当时的值是相同的，所以我可以使用 df.drop_duplicates(keep="first")删除具有相同索引和列值的所有行。
但是，存在索引冲突，其中值不相同或非 nan 值仅出现在其中一行中。我追求的行为是:
对于重复索引，基于每列:

如果只有一个非 nan 值:使用那个。

如果所有 nan 值:使用 nan。

如果所有相同的(非 nan)值:使用那个。

如果不相等(非 nan)值:使用 nan。

例如(是一个简化的 DataFrame):

     A      B    C
0    1    2.0  NaN
1    2    NaN  NaN
1  100  500.0  NaN
2    3    6.0  NaN
2  200    6.0  NaN
3  300    8.0  NaN
3  300    NaN  5.0
3  300    NaN  NaN
4  400  106.0  NaN

应该导致:

       A      B    C
0    1.0    2.0  NaN
1    NaN  500.0  NaN
2    NaN    6.0  NaN
3  300.0    8.0  5.0
4  400.0  106.0  NaN

我试图用几种方法解决这个问题，但它们在数据集大小上都非常慢。
当前缓慢的解决方案(您可能需要滚动代码片段窗口):

import numpy as np
import pandas as pd

df = pd.DataFrame(
    [
        dict(A=1, B=2.0, C=None),
        dict(A=2, B=None, C=None),
        dict(A=100, B=500, C=None),
        dict(A=3, B=6.0, C=None),
        dict(A=200, B=6.0, C=None),
        dict(A=300, B=8.0, C=None),
        dict(A=300, B=None, C=5.0),
        dict(A=300, B=None, C=None),
        dict(A=400, B=106, C=None),
    ],
    index=[0, 1, 1, 2, 2, 3, 3, 3, 4],
)


# SLOW SOLUTION 1
def canonical(colum_values):
    candidates = colum_values.dropna().unique()
    if len(candidates) == 1:
        return candidates[0]
    else:
        return np.nan


solution_1 = df.groupby(df.index).aggregate(canonical)


# SLOW & UGLY SOLUTION 2
def solve_2(df):
    df = df.copy()

    for dupe in df.index[df.index.duplicated(keep="first")]:
        for column in df.columns:
            values = df[df.index == dupe][column]

            if len(values.dropna().unique()) == 1:
                df.loc[df.index == dupe, column] = values.dropna().iloc[0]
            else:
                df.loc[df.index == dupe, column] = np.nan
    
    # duplicate rows should all now share the same value, so just keep one.
    df.drop_duplicates(keep="first", inplace=True)

    return df


solution_2 = solve_2(df)

寻找对这些的任何改进，以在大型数据集上获得更好的性能。
谢谢。

最佳答案

您可以 group level=0 上的数据框并使用 进行聚合 .first 获得第一个 non-nan每 level=0 的值(value)组然后 .mask 每个 level=0 有多个唯一值的列中的值团体 :

g = df.groupby(level=0)
g.first().mask(g.nunique().gt(1))

详情:

g.first()

     A      B    C
0    1    2.0  NaN
1    2  500.0  NaN
2    3    6.0  NaN
3  300    8.0  5.0
4  400  106.0  NaN

g.nunique().gt(1)

       A      B      C
0  False  False  False
1   True  False  False
2   True  False  False
3  False  False  False
4  False  False  False

结果:

       A      B    C
0    1.0    2.0  NaN
1    NaN  500.0  NaN
2    NaN    6.0  NaN
3  300.0    8.0  5.0
4  400.0  106.0  NaN

关于python - Pandas 分组索引 : nan conflicts or take only value，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65848543/

25

4

0

文章推荐： java - 是否可以使用 Kafka 将 Java 对象发送到 C# 应用程序

文章推荐： python - 时间序列数据的 Pandas 滚动最大值

文章推荐： javascript - 如何选择所有复选框并传递给 Controller

文章推荐： amazon-cloudwatch - 确定哪些 SES 调用使用版本 2 签名登录

javascript - (NaN != NaN) 和 (NaN !== NaN) 有什么区别？
首先我想说的是，我知道isNaN()和 Number.isNaN()工作。我正在阅读 David Flanagan 的 The Definite Guide，他举例说明了如何检查值是否为 NaN :
javascript - 如何摆脱 NaN/NaN/NaN
在表中，对于 skips day 列，最后一行的默认值始终是单词“last”，它不是数字。现在，结果日期显示为“NaN/NaN/NaN”，有什么方法可以将其替换为 Nil 之类的东西。非常感谢。
Javascript 获取 NaN :NaN:NaN
我正在制作一个网站，如果用户登录，则会为用户提供一定的注销时间，其中定义了注销时间，剩余时间是从注销时间 - 服务器时间获得的。我已经通过 PHP 获得了注销时间和服务器时间，但我想动态显示剩余时间
ios - 什么可能导致此 "Fatal Exception: CALayerInvalidGeometry CALayer bounds contains NaN: [nan nan; nan nan]"崩溃？
我有以下代码，它简单地初始化一个 UIImageView 以适应 UIImage 在当前屏幕尺寸上尽可能大的比例: CGSize mainScreenSize = [appDelegate mainS
python - 为什么 (nan,)==(nan,) 为 True，而 nan==nan 为 False？
这个问题已经有答案了: Why in numpy `nan == nan` is False while nan in [nan] is True? (1 个回答) 已关闭 3 年前。我只是觉得这有
javascript - 将 JqGrid 列模式显示为日期和超链接显示 NAN/NAN/NAN
我有动态 JQGrid，其中一列是日期列。我从包含 URL 和日期的 feed 中获取数据。我需要为“日期列”开发列模型，使其显示日期和超链接。但不幸的是，数据显示为 NAN/NAN/NAN (这可
java - map(NaN) 返回 NaN 但我无法调试 NaN
我已经包含了一个演示我的问题的片段。基本上处理给了我这个错误: 调用map(NaN, -3, 3, -125, 125)，返回NaN(不是数字) 我理解此消息的方式是，map 函数返回 NaN，并且由
javascript - 过滤日期在 AngularJS 中返回 NaN-NaN-NaN
我在下面创建的过滤器适用于 Chrome，但不适用于 Firefox。我不明白为什么。 myApp.filter('dateCustom', [ '$filter', function ($fil
python - 为什么在 numpy `nan == nan` 中为 False 而 [nan] 中的 nan 为 True？
虽然问题的第一部分(在标题中)之前已经回答过几次(即 Why is NaN not equal to NaN? )，但我不明白为什么第二部分会以它的方式工作(受此启发问题 How to Check l
c# - 如何使用泛型测试 NaN(或者为什么 NaN.Equals(NaN) == true)？
我需要在数组中找到min和max值(不考虑可能的NaN值在这个数组中)。这只使用 double 会很容易，但是这些 FindMin 和 FindMax 函数必须使用泛型类型。我尝试以这种方式测
ios - 'CALayer 位置包含 NaN : [nan nan]' on UIScrollView
我正在开发一个屏幕，其中 UIScrollView 内只有一个 UIImageView。 UIScrollView 使用户能够固定和缩放图像。我从下面的帖子中得到了帮助。它使用 Storyboard和
ios - Swift:CALayer 边界包含 NaN:[nan nan;南南]？
尽管看到了类似的答案，但我不知道这里发生了什么。我制作了一个自定义的 UIImageview，它应该在创建后立即开始动画: class HeaderAnimator: UIImageView {
python - Pandas :用下一个非 NaN/# 连续 NaN 填充 NaN
我正在寻找一个 pandas 系列并用下一个数值的平均值填充 NaN，其中:average = next numerical value/(# consecutive NaNs + 1) 到目前为止，
javascript - jQuery UI $.datepicker.formatDate 返回 NaN NaN Nan
我有一个 mySql 表，其中有一个名为 posts 的列，该列设置为 timestamp 类型，默认为 current_timestamp。然后，我使用 php PDO 获取它的值(以及其他一些列)
c++ - NAN 差异 - std::nan 与 quiet_NaN() 与宏 NAN
我想知道以下类型的 nan 之间有什么区别。除了 NAN_macro (计算结果为 -nan(ind) 而不是 nan )的视觉差异外，它们的行为似乎都相同(根据下面的示例脚本)。我看了一些其他的答
javascript - 如何解析 NaN :NaN:NaN error in Mozilla Firefox and IE
我为我的网页做了倒计时；它在除 Mozilla 和 IE 之外的所有浏览器上都能正常工作。我做错了什么，我该如何解决？下面是我的代码: ***var dt = '2018-06-14 11:59
ios - 调试 'CALayer position contains NaN: [nan nan]'
在将 Xcode 更新到 8.3 后，我在启动时开始收到此错误:由于未捕获的异常“CALayerInvalidGeometry”而终止应用程序，原因:“CALayer 位置包含 NaN:[nan na
javascript - 如果 Date 为空格式 date() 返回 NaN/NaN/NaN 而不是没有值
我正在使用 jquery 自动完成 onselect 它在不同的文本字段中显示数据。我使用 format_date() 函数在 #dob 和 #anniversery 中显示格式化日期 select:
javascript - IE8 中 Ext JS 网格日期值的 NaN.NaN.NaN 值
我有一个带有 json Store 和 DateField 的网格。 Firefox 运行良好，但在 Internet Explorer 8 中无法运行。我这样定义: function conver
objective-c - 如何解决CALayerInvalidGeometry'，原因: 'CALayer position contains NaN: [nan nan]?
我有一个错误，它在启动时使应用程序崩溃。这是我得到的错误: *** Terminating app due to uncaught exception 'CALayerInvalidGeometry'

首页

博学

6Ren·AI

商城

python - Pandas 分组索引 : nan conflicts or take only value