gpt4 book ai didi

Pandas groupby 大小 "count"间歇性计数不足

转载 作者:行者123 更新时间:2023-12-01 06:36:24 25 4
gpt4 key购买 nike

为什么我得到不一致的组大小“计数”?
我正在使用 Pandas 10.0,将 600 万行数据集减少到 400k groupby:

In [16]: df.groupby('Z ID').size()[470009:470010]
Out[16]:
Z ID
994555 6

In [14]: df[df['Z ID'] == 994555].groupby('Z ID').size()
Out[14]:
Z ID
994555 9

当我查看原始数据时,有 9 个项目。

编辑:原始数据
完整的数据集是 600 万条记录。 Pandas size() 在小家伙身上效果很好。
            FilterDate           Z ID   AR Code AA Code
48349 12/1/2007..2/28/2009 994555 377 202
151060 2/1/2008..4/30/2009 994555 377 202
204179 3/1/2008..5/31/2009 994555 377 202
244504 4/1/2008..6/30/2009 994555 377 202
302728 5/1/2008..7/31/2009 994555 377 202
365780 6/1/2008..8/31/2009 994555 377 202
431555 7/1/2008..9/30/2009 994555 377 202
499234 8/1/2008..10/31/2009 994555 377 202
786937 12/1/2008..2/28/2010 994555 377 202

最佳答案

根据您对 dtypes 是“对象”的评论,我想知道您的 Z_ID 是否作为字符串列加载,从而导致因子列。如果某些字符串有前导空格,它们将被解释为不同的因子级别。

更一般地说,无论该列包含什么“对象”类型,其比较函数都可能与您认为的方式不同。这有点牵强。

对您来说更好的事情可能是弄清楚为什么您的数据框列 dtype 不是 int64。我发现在 Pandas 中工作时,在数据框中获得正确的 dtypes 非常重要。如果您可以发布一些代码,我相信这里的社区可以提供正确加载类型的建议。

关于Pandas groupby 大小 "count"间歇性计数不足,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14386897/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com