gpt4 book ai didi

Pandas.Index.isin() 在处理大数据集时失败

转载 作者:行者123 更新时间:2023-12-02 23:45:08 26 4
gpt4 key购买 nike

这是一个例子

创建一个包含 100M 相同行的表:

>>> df = pd.DataFrame([('20170101', 'TULIP', 'FLOWER')] * 100000000, columns = ['DATE', 'NAME', 'TYPE'])

将前 2 列设置为索引:

>>> df.set_index(['DATE', 'NAME'], inplace=True)

然后检查索引是否在 [('20170101', 'TULIP')] 中,这对于所有行都应该成立:

>>> df.index.isin([('20170101', 'TULIP')])
array([False, False, False, ..., False, False, False], dtype=bool)

所以 Pandas 给出的结果是错误的 - 它所有的结果都是False。事实上,如果我只检查前 1M 行,它会给出正确的结果:

>>> df[:1000000].index.isin([('20170101', 'TULIP')])
array([ True, True, True, ..., True, True, True], dtype=bool)

这是 Pandas 中的错误吗?或者我错过了什么?

最佳答案

根据@Jeff 对 OP 的评论,此问题将在版本 0.21 中得到修复。

关于Pandas.Index.isin() 在处理大数据集时失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45888059/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com