python - 使用 pd.json_normalize 展平字典-6ren

python - 使用 pd.json_normalize 展平字典

转载作者：行者123 更新时间：2023-12-02 16:16:47

24

4

我目前正在对这个字典文件进行扁平化处理，遇到了一些障碍。我正在尝试使用 json_normalize 来展平这些数据。如果我对单个实例进行测试，它可以工作，但如果我想展平所有数据，它将返回一个错误，指出 key error '0' 我不确定如何解决这个问题。

数据示例-

data = {1:{
      'Name': "Thrilling Tales of Dragon Slayers",
      'IDs':{
            "StoreID": ['123445452543'],
            "BookID": ['543533254353'],
            "SalesID": ['543267765345']},
     2:{
      'Name': "boring Tales of Dragon Slayers",
      'IDs':{
            "StoreID": ['111111', '1121111'],
            "BookID": ['543533254353', '4324232342'],
            "SalesID": ['543267765345', '4353543']}}

我的代码

d_flat = pd.io.json.json_normalize(data, meta=['Title', 'StoreID', 'BookID', 'SalesID'])

最佳答案

设置

您的数据结构不便。我想关注:

将 'IDs' 中的列表放入字典列表中，这样会方便得多。
删除父字典中无用的键。我们只关心值(value)观。

您的数据:

{1: {'Name': 'Thrilling Tales of Dragon Slayers',
     'IDs': {'StoreID': ['123445452543'],
             'BookID': ['543533254353'],
             'SalesID': ['543267765345']}},
 2: {'Name': 'boring Tales of Dragon Slayers',
     'IDs': {'StoreID': ['111111', '1121111'],
             'BookID': ['543533254353', '4324232342'],
             'SalesID': ['543267765345', '4353543']}}}

我希望它看起来像什么:

[{'Name': 'Thrilling Tales of Dragon Slayers',
  'IDs': [{'StoreID': '123445452543',
           'BookID': '543533254353',
           'SalesID': '543267765345'}]},
 {'Name': 'boring Tales of Dragon Slayers',
  'IDs': [{'StoreID': '111111',
           'BookID': '543533254353',
           'SalesID': '543267765345'},
          {'StoreID': '1121111',
           'BookID': '4324232342',
           'SalesID': '4353543'}]}]

重构数据

合理方式

简单的循环，不要乱来。这让我们得到了我上面展示的内容

new = []

for v in data.values():
    temp = {**v}           # This is intended to keep all the other data that might be there
    ids = temp.pop('IDs')  # I have to focus on this to create the records
    temp['IDs'] = [dict(zip(ids, x)) for x in zip(*ids.values())]
    new.append(temp)

可爱的单线

new = [{**v, 'IDs': [dict(zip(v['IDs'], x)) for x in zip(*v['IDs'].values())]} for v in data.values()]

使用`pd.json_normalize`创建`DataFrame`

在调用 json_normalize 时，我们需要指定记录的路径，即在 'IDs' 键中找到的 id 字典列表。 json_normalize 将为该列表中的每个项目在数据框中创建一行。这将通过 record_path 参数完成，我们传递一个 tuple 来描述路径(如果它在更深的结构中)或一个字符串(如果键在顶层，对我们来说就是顶层)。

record_path = 'IDs'

然后我们要告诉 json_normalize 哪些键是记录的元数据。如果像我们一样有多个记录，那么元数据将为每条记录重复。

meta = 'Name'

所以最终的解决方案是这样的:

pd.json_normalize(new, record_path='IDs', meta='Name')

        StoreID        BookID       SalesID                               Name
0  123445452543  543533254353  543267765345  Thrilling Tales of Dragon Slayers
1        111111  543533254353  543267765345     boring Tales of Dragon Slayers
2       1121111    4324232342       4353543     boring Tales of Dragon Slayers

然而

如果我们无论如何都要重组，不妨进行重组，这样我们就可以将其传递给数据框构造函数。

pd.DataFrame([
    {'Name': r['Name'], **dict(zip(r['IDs'], x))}
    for r in data.values() for x in zip(*r['IDs'].values())
])

                                Name       StoreID        BookID       SalesID
0  Thrilling Tales of Dragon Slayers  123445452543  543533254353  543267765345
1     boring Tales of Dragon Slayers        111111  543533254353  543267765345
2     boring Tales of Dragon Slayers       1121111    4324232342       4353543

奖励内容

当我们在做的时候。关于每个 id 类型是否具有相同数量的 id，数据是不明确的。假设他们没有。

data = {1:{
      'Name': "Thrilling Tales of Dragon Slayers",
      'IDs':{
            "StoreID": ['123445452543'],
            "BookID": ['543533254353'],
            "SalesID": ['543267765345']}},
     2:{
      'Name': "boring Tales of Dragon Slayers",
      'IDs':{
            "StoreID": ['111111', '1121111'],
            "BookID": ['543533254353', '4324232342'],
            "SalesID": ['543267765345', '4353543', 'extra id']}}}

然后我们可以使用 itertools 中的 zip_longest

from itertools import zip_longest

pd.DataFrame([
    {'Name': r['Name'], **dict(zip(r['IDs'], x))}
    for r in data.values() for x in zip_longest(*r['IDs'].values())
])

                                Name       StoreID        BookID       SalesID
0  Thrilling Tales of Dragon Slayers  123445452543  543533254353  543267765345
1     boring Tales of Dragon Slayers        111111  543533254353  543267765345
2     boring Tales of Dragon Slayers       1121111    4324232342       4353543
3     boring Tales of Dragon Slayers          None          None      extra id

关于python - 使用 pd.json_normalize 展平字典，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66464851/

24

4

0

文章推荐： c++ - typename参数包和auto参数包的区别？

文章推荐： javascript - 如何使用for循环在js中获取ModelAndView对象？

文章推荐： javascript - 在选择时获取功能 ID

文章推荐： javascript - 如何在 ChartJS - AngularJS 上设置 borderWidth？

python - `pd.pivot_table` 和 `pd.DataFrame.groupby` + `pd.DataFrame.unstack` 之间是否完全重叠？
(请注意这里有一个问题 Pandas: group by and Pivot table difference ，但是这个问题是不同的。) 假设您从一个 DataFrame 开始 df = pd.Da
Problems with pd.read_csv(Pd.read_csv的问题)
我在Windows 10上安装了Anaconda 3。我正在使用pd.read_csv()加载CSV文件，但收到错误消息。首先，我尝试了df=pd.read_csv(‘C：\Direct_market
python - 无法连接类型为 ""的对象；只有 pd.Series、pd.DataFrame 和 pd.Panel(已弃用)objs 有效
我的输入数据是以下形式: gold,Program,MethodType,CallersT,CallersN,CallersU,CallersCallersT,CallersCallersN,
python - 使用 pd.merge 复制 pd.concat
是否可以使用pd.merge复制以下内容 a = pd.DataFrame(dict(x=[1,2], y=[5,5])) b = pd.DataFrame(dict(x=[7,7], y=[12,1
python - pd.saveto 和 pd.read_csv 添加标题和索引列
我有一个像这样保存的数据框: Y_train_1.head() 0 4691.0 1 4661.0 2 4631.0 3 4601.0 4 4571.0 Y_train_
python - 获取 pd.dataFrame 的最后一列并将其添加到另一个 pd.dataFrame
我有一个如下所示的 Excel 文件: CompanyName High Priority QualityIssue Customer1 Yes
python - 使用 pd.Categorical 对多索引 pd.Series 进行排序？
题为什么排序使用 pd.Series.sort_index使用分类索引时似乎不起作用？如何使用字母/数字以外的其他排序顺序对多索引 pd.Series 的索引进行排序？移动电源设置代码 impo
python - 为什么带有 pd.isnull 的 pd.DataFrame 失败？
tt = pd.DataFrame({'a':[1,2,None,3],'b':[None,3,4,5]}) bb=pd.DataFrame(pd.isnull(tt).astype(int), in
python - pd.DataFrame.boxplot 与 pd.cut 不兼容
示例代码: import pandas as pd import numpy as np sample = pd.DataFrame({"a":[1,2,3,1,2,3,1,2,3], "b":np.
python - 将 pd.Series 向量与多索引 pd.Dataframe 相乘
我有一个 Pandas 系列和一个 Pandas 多索引数据框。下面是一个简单的例子: iterables = [['milk', 'honey', 'dates'], ['jan', 'feb',
python - 两个 pd.Timestamp 对象之间每天上午 9 点的 pd.date_range
我拥有的: pd.Timestamp('2021-07-05 08:10:11') pd.Timestamp('2021-07-07 12:13:14') 我在找什么: [pd.Timestamp('
python - 要指定列名称，为什么 `pd.read_csv` 和 `pd.DataFrame` 使用相同的参数名称？
在使用 pandas 时，我遇到了创建新 data-Frame 的两种最常见的方法。使用pandas如下； 1. pandas.read_csv() Type: 2. pandas.DataFram
python - pd.groupby().first() 和 pd.groupby().min() 有何不同？
伙计们，我有一个Dataframe df= pd.DataFrame({'Point_ID':[1,2,3,1,2,1] , 'Shape_ID': [84,85,86,87,88,89],'LOL'
python - pd.DatetimeIndex.weekday 和 pd.DatetimeIndex.dayofweek 有什么区别
在 pandas datetimeindex 中，dayofweek和 weekday似乎是一样的。他们只是彼此的别名吗？我发现了这些功能 here 最佳答案根据pandas源码定义的Datetim
python - Pandas:使用 pd.Series 对带有索引的 pd.DataFrame 进行排序
我正在尝试按另一个按特定顺序排序的系列对 DataFrame (axis = 0) 进行排序。例子:DataFrame 包含 CountryCodes 的索引:'AUS'、'BWA' ....(按字
python - Dask read_csv-- 在 `pd.read_csv`/`pd.read_table` 中发现不匹配的 dtypes
我正在尝试使用 dask 读取 csv 文件，它给了我如下错误。但问题是我想要我的 ARTICLE_ID是 object(string) .谁能帮我成功读取数据？回溯如下: ValueError:
python - pd.df.plot.box() 和 pd.df.boxplot() 之间的区别
为什么 pandas 有两个用于箱线图的函数:pandas.DataFrame.plot.box() 和 pandas.DataFrame.boxplot()？ df = pd.DataFrame(n
python - 尽管索引匹配，但 pd.IndexSlice 的 pd.Series 赋值会导致 NaN 值
我有一个多索引系列，如下所示。 > data = [['a', 'X', 'u', 1], ['a', 'X', 'v', 2], ['b', 'Y', 'u', 4], ['a', 'Z', 'u'
python - 为什么 plt.figure(figsize) 在绘制 pd.DataFrame 和 pd.Series 时呈现不同的结果？
这个问题在这里已经有了答案: Inconsistency when setting figure size using pandas plot method (2 个答案) 关闭 4 年前。在下面
python - 想知道 pd.factorize、pd.get_dummies、sklearn.preprocessing.LableEncoder 和 OneHotEncoder 之间的区别
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 6 年前。 Improve t

首页

博学

6Ren·AI

商城