gpt4 book ai didi

python-3.x - 将 panda 数据框列从字典数据形式解析为每个字典键的新列

转载 作者:行者123 更新时间:2023-12-02 02:56:53 25 4
gpt4 key购买 nike

在Python 3中,pandas。假设有一个带有 x 列的数据框 df

df=pd.DataFrame(
[
{'x':'{"a":"1","b":"2","c":"3"}'},
{'x':'{"a":"2","b":"3","c":"4"}'}
]
)

列 x 包含看起来像字典的数据。想知道如何将它们解析为新的数据框,以便这里的每个键都成为一个新列?

所需的输出数据帧类似于

x,a,b,c
'{"a":"1","b":"2","c":"3"}',1,2,3
'{"a":"2","b":"3","c":"4"}',2,3,4

本文中的解决方案似乎都不适用于这种情况

parsing a dictionary in a pandas dataframe cell into new row cells (new columns)

df1=pd.DataFrame(df.loc[:,'x'].values.tolist())

print(df1)

结果相同的数据帧。没有将列分成每列的每个键

有2美分吗?谢谢!

最佳答案

您还可以映射 json.loads 并转换为数据帧,例如;

import json
df1 = pd.DataFrame(df['x'].map(json.loads).tolist(),index=df.index)
print(df1)

   a  b  c
0 1 2 3
1 2 3 4

此测试比通过 ast 进行评估更快,以下是 40K 行的基准:

m = pd.concat([df]*20000,ignore_index=True)

%%timeit
import json
df1 = pd.DataFrame(m['x'].map(json.loads).tolist(),index=m.index)
#256 ms ± 18.5 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

%%timeit
import ast
df1 = pd.DataFrame(m['x'].map(ast.literal_eval).tolist(),index=m.index)
#1.32 s ± 136 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit
import ast
df1 = pd.DataFrame(m['x'].apply(ast.literal_eval).tolist(),index=m.index)
#1.34 s ± 71.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

关于python-3.x - 将 panda 数据框列从字典数据形式解析为每个字典键的新列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60912050/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com