gpt4 book ai didi

python - 设置 pandas 多行并放大

转载 作者:太空宇宙 更新时间:2023-11-03 15:44:40 25 4
gpt4 key购买 nike

根据 pandas 文档,应该可以使用 setting with enlargment 将不存在的行追加到 DataFrame 中,但是虽然检索多个丢失的键工作正常,设置多个丢失的键会抛出KeyError:

import pandas as pd

print(pd.__version__) # '0.19.2'

df = pd.DataFrame([[9] * 3] * 3, index=list('ABC'))

## Show a mix of extant and missing keys:
inds_e = pd.Index(list('BCDE'))
print(df.loc[inds_e])
# 0 1 2
# B 9.0 9.0 9.0
# C 9.0 9.0 9.0
# D NaN NaN NaN
# E NaN NaN NaN

## Assign the enlarging subset to -1:
try:
df.loc[inds_e] = -1
except KeyError as e:
print(e)
# "Index(['D', 'E'], dtype='object') not in index"

设置多个现有键效果很好,并且设置任意一行的放大效果也很好:

## Assign all the non-missing keys at once:
inds_nm = inds_e.intersection(df.index)
df.loc[inds_nm] = -1

## Assign the missing keys one at a time:
inds_m = inds_e.difference(df.index)
for ind in inds_m:
df.loc[ind] = -1

print(df)
# 0 1 2
# A 9 9 9
# B -1 -1 -1
# C -1 -1 -1
# D -1 -1 -1
# E -1 -1 -1

也就是说,这看起来非常不优雅且效率低下。有一个very similar question here ,但这是使用 combine_first() 功能解决的 - 两者 combine_first()update()方法似乎没有与简单赋值相同的语义 - 在 combine_first 的情况下,非空值不会更新,而在 update 的情况下,右侧数据框中的空值不会覆盖左侧数据框中的非空值。

这是pandas中的一个错误吗?如果不是,那么在pandas上将值分配给现有和缺失键的混合的“正确”方法是什么? > 数据框?

编辑:看起来像 there is an issue about this from 2014pandas github 上。事实上,显然是使用 df.reindex ,但我不清楚当您尝试分配所有键的子集并进行放大时,它是如何工作的。

最佳答案

根据您的编辑,您可以使用 reindex 进行重叠和放大分配在两个索引的并集上,后跟 loc:

# Reindex to add the missing indicies (fill_value preserves integer dtype).
df = df.reindex(df.index.union(inds_e), fill_value=-1)

# Perform the assignment.
df.loc[inds_e] = -1

看起来这在这里做了一些额外的分配,因为 loc 将双重填充 fill_value 处理的一些值。几个简单的计时似乎表明,双重填充比仅确定要填充的剩余位置更快。您也不一定需要使用 fill_value;我只是在本例中使用它来保留数据类型。如果您使用 float 而不是整数,则完全没有必要。

结果输出:

   0  1  2
A 9 9 9
B -1 -1 -1
C -1 -1 -1
D -1 -1 -1
E -1 -1 -1

时间

这看起来确实相当有效。使用以下设置生成更大的示例:

n = 10**5
df = pd.DataFrame(np.random.randint(1000, size=(n, 4)))
inds = pd.Index(range(n//2, 3*n//2))

def root(df, inds):
df = df.reindex(df.index.union(inds), fill_value=-1)
df.loc[inds] = -1
return df

def paul(df, inds):
## Assign all the non-missing keys at once:
inds_nm = inds.intersection(df.index)
df.loc[inds_nm] = -1

## Assign the missing keys one at a time:
inds_m = inds.difference(df.index)
for ind in inds_m:
df.loc[ind] = -1

return df

我得到以下时间:

%timeit root(df.copy(), inds)
100 loops, best of 3: 16.5 ms per loop

我无法使用 n=10**5 运行您的解决方案。使用n=10**4:

%timeit paul(df.copy(), inds)
1 loop, best of 3: 14.1 s per loop

关于python - 设置 pandas 多行并放大,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41864014/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com