gpt4 book ai didi

python - 什么时候使用类别而不是对象?

转载 作者:太空狗 更新时间:2023-10-29 17:47:40 25 4
gpt4 key购买 nike

我有一个 CSV 数据集,其中包含我正在使用 Pandas 处理的 40 个特征。 7 个特征是连续的 (int32),其余特征是分类的。

我的问题是:

我应该使用 Pandas 的 dtype('category') 作为分类特征,还是可以使用默认的 dtype('object')

最佳答案

当您希望利用大量重复时使用类别。

例如,假设我想要一个大型交易表的每个交易所的总规模。使用默认的 object 是完全合理的:

In [6]: %timeit trades.groupby('exch')['size'].sum()
1000 loops, best of 3: 1.25 ms per loop

但由于可能的交换列表非常小,而且有很多重复,我可以通过使用 category 来加快速度:

In [7]: trades['exch'] = trades['exch'].astype('category')

In [8]: %timeit trades.groupby('exch')['size'].sum()
1000 loops, best of 3: 702 µs per loop

请注意,类别实际上是一种动态枚举的形式。如果可能值的范围是固定且有限的,它们最有用。

关于python - 什么时候使用类别而不是对象?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30601830/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com