gpt4 book ai didi

python - 在 Column 中复制具有 NaN 值的 DataFrame

转载 作者:太空宇宙 更新时间:2023-11-03 23:59:51 25 4
gpt4 key购买 nike

我有一个类似于下例的 DataFrame。

# define DataFrame for reproducability

df = pd.DataFrame({'date': ['2019-05-06', '2019-05-07', '2019-05-07', '2019-05-09', '2019-05-10', '2019-05-11'],
'Identifier': [1, 1, 1, 1, 1, 1],
'B': [2.4, 3.9, 3.9, 4.3, 2.5, 3.14],
'C': [0.214, 0.985, 0.985, 0.839, 0.555, 0.159],
'Name': [np.nan, "CD", "AD", np.nan, np.nan, np.nan]})

print(df)

date Identifier B C Name
0 2019-05-06 1 2.40 0.214 NaN
1 2019-05-07 1 3.90 0.985 CD
2 2019-05-07 1 3.90 0.985 AD
3 2019-05-09 1 4.30 0.839 NaN
4 2019-05-10 1 2.50 0.555 NaN
5 2019-05-11 1 3.14 0.159 NaN

可以看出,对于一个给定的标识符,可以有多个名称。但是,该名称仅在单个日期附加到 DataFrame 一次。我需要的是在每个日期基本向前和向后填写姓名。目前,我有一个可行的解决方案,但对于我正在处理的完整数据框来说,它的速度非常慢。代码如下所示

final_df = pd.DataFrame()

for i in df.Identifier.unique():
# select the current identifier
identifier_df = df.loc[df.Identifier == i]
# allow a given identifier to have different names
for n in df.Name.unique():
if pd.isna(n):
continue
else:
intermediate = identifier_df.copy()
intermediate.loc[:,"Name"] = np.repeat(n, len(intermediate))
final_df = final_df.append(intermediate)

final_df = final_df.drop_duplicates()

请注意,对于我的完整 DataFrame,标识符循环是必需的。然而,在这种情况下,这似乎毫无意义。然而,这段代码会产生以下数据帧(这是我希望输出的样子):

print(final_df)

date Identifier B C Name
0 2019-05-06 1 2.40 0.214 CD
1 2019-05-07 1 3.90 0.985 CD
3 2019-05-09 1 4.30 0.839 CD
4 2019-05-10 1 2.50 0.555 CD
5 2019-05-11 1 3.14 0.159 CD
0 2019-05-06 1 2.40 0.214 AD
1 2019-05-07 1 3.90 0.985 AD
3 2019-05-09 1 4.30 0.839 AD
4 2019-05-10 1 2.50 0.555 AD
5 2019-05-11 1 3.14 0.159 AD

有什么方法可以用 groupby 执行这个操作,或者有什么其他方法可以让它更快吗?

谢谢!

最佳答案

据我了解,如果对日期进行排序并且每个日期的长度相同:

from itertools import islice,cycle
m=df.name.isna() #pull where name is NaN
l=df.loc[~m,'name'].tolist() #create a list for not null names
df.loc[m,'name']=list(islice(cycle(l),len(df[m]))) #repeat the list for all dates and assign to NaN
print(df)

         date  identifier    B      C name
0 2019-05-07 1 2.4 0.214 AB
1 2019-05-07 1 2.4 0.214 CD
2 2019-05-08 1 3.9 0.985 AB
3 2019-05-08 1 3.9 0.985 CD
4 2019-05-09 1 2.5 0.555 AB
5 2019-05-09 1 2.5 0.555 CD

关于python - 在 Column 中复制具有 NaN 值的 DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56055976/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com