gpt4 book ai didi

python - 如何映射到 Pandas 列表列中的值

转载 作者:行者123 更新时间:2023-12-03 23:58:37 26 4
gpt4 key购买 nike

我有以下场景。

import pandas as pd

d = {'col1': [1, 2, 3], 'col2': [['apple'], [], ['romaine', 'potatoes']}
df = pd.DataFrame(data=d)

所以数据框是:

   col1   col2
0 1 [apple]
1 2 []
2 3 [romaine, potatoes]

我还有一本字典:

my_dict = {"apple" : "fruit", "potatoes" : "vegetable", "romaine" : "lettuce"}

我想创建另一列“col3”,其中包含来自上面 my_dict 的值列表:

   col1   col2                 col3
0 1 [apple] [fruit]
1 2 [] []
2 3 [romaine, potatoes] [lettuce, vegetable]

我想用apply、map、lambda写一行代码来实现:

df["col3"] = df.col2.apply(map(lambda x: pass if not x else condition_dict[x]))

我真的很困惑,想知道是否可以不编写单独的函数然后作为参数传递给应用。

最佳答案

  • 对于具有 1M 行的示例数据帧,带有 list-comprehension.apply 比带有 .explode() 的速度快约 2.5 倍.groupby(),比使用 .map() 快一点(1.15x)。
  • 如果列中有NaN,则必须用.dropna删除行,也可以用空的list填充>。
    • .fillna([]) 不起作用
    • 使用 df.col2 = df.col2.fillna({i: [] for i in df.index})
df['col3'] = df.col2.apply(lambda x: [my_dict.get(v) for v in x])

# display(df)
col1 col2 col3
1 [apple] [fruit]
2 [] []
3 [romaine, potatoes] [lettuce, vegetable]

%timeit 测试

# test data with 1M rows
d = {'col1': [1, 2, 3], 'col2': [['apple'], [], ['romaine', 'potatoes']]}
df = pd.DataFrame(d)
df = pd.concat([df]*333333)

%%timeit
df.col2.apply(lambda x: [my_dict.get(v) for v in x])
[out]:
453 ms ± 30.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

def scott(d, my_dict):
e = d.explode('col2')
e['col3'] = e['col2'].map(my_dict)
return e.groupby('col1', as_index=False)[['col3']].agg(list).merge(d)

%%timeit
scott(df, my_dict)
[out]:
1.17 s ± 23.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit
df.col2.map(lambda x: list(map(my_dict.get, x)))
[out]:
519 ms ± 16.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit
df['col2'].explode().map(my_dict).groupby(level=0).agg(list)
[out]:
909 ms ± 8.61 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

关于python - 如何映射到 Pandas 列表列中的值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65962061/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com