gpt4 book ai didi

python - 如何加快附加到现有数据框的速度

转载 作者:太空宇宙 更新时间:2023-11-03 17:23:58 24 4
gpt4 key购买 nike

我正在尝试向现有数据框追加或添加行,该数据框约有 700 万行。

现在我面临的挑战是我能够通过以下方式使用 iterrows 执行相同的操作:

for key,value in df.iterrows():
if value['col3'] > 0:
df.loc[len(df),['col1','col2','col3','col4','col5']] = [value['col1']+value['col3'],value['col2'],value['col3'],value['col4'],'blah']

并按以下方式使用itertuples:

for tup in df.itertuples(index = False):
if tup[4] > 0:
df.loc[len(df),['col1','col2','col3','col4','col5']] = [tup[1]+ tup[3],tup[2], tup[3],tup[4],'blah']

这两种方法都可以完成工作,但会占用处理时间。

有人可以建议我在 Python pandas 中执行此操作的更好方法吗?

最佳答案

您可以使用np.where ,如果您需要按条件追加行:

import pandas as pd
import numpy as np
import io

#original data
temp=u"""col1,col2,col3,col4,col5
1,2,3,4,5
3,4,-5,6,7
5,6,-7,8,9"""

df1 = pd.read_csv(io.StringIO(temp))
print df1
# col1 col2 col3 col4 col5
#0 1 2 3 4 5
#1 3 4 -5 6 7
#2 5 6 -7 8 9

#copy data for next processing
df = df1.copy()

#set data by conditions
df1['col1'] = np.where(df1['col3'] > 0, df1['col1'] + df1['col3'], np.NaN)
df1['col5'] = np.where(df1['col3'] > 0, 'blah', np.NaN)

#drop rows with NaN
df1 = df1.dropna()

#append to original df
result = pd.concat([df, df1], ignore_index=True)
print result
# col1 col2 col3 col4 col5
#0 1 2 3 4 5
#1 3 4 -5 6 7
#2 5 6 -7 8 9
#3 4 2 3 4 blah

关于python - 如何加快附加到现有数据框的速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32823058/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com