python - 如何使用平面数据表中的嵌套记录构建 JSON 文件？-6ren

python - 如何使用平面数据表中的嵌套记录构建 JSON 文件？

转载作者：太空狗更新时间：2023-10-29 21:58:10

我正在寻找一种 Python 技术来从 pandas 数据框中的平面表构建嵌套的 JSON 文件。例如，一个 pandas 数据框表怎么可能是这样的:

teamname  member firstname lastname  orgname         phone        mobile
0        1       0      John      Doe     Anon  916-555-1234                 
1        1       1      Jane      Doe     Anon  916-555-4321  916-555-7890   
2        2       0    Mickey    Moose  Moosers  916-555-0000  916-555-1111   
3        2       1     Minny    Moose  Moosers  916-555-2222

被获取并导出为如下所示的 JSON:

{
"teams": [
{
"teamname": "1",
"members": [
  {
    "firstname": "John", 
    "lastname": "Doe",
    "orgname": "Anon",
    "phone": "916-555-1234",
    "mobile": "",
  },
  {
    "firstname": "Jane",
    "lastname": "Doe",
    "orgname": "Anon",
    "phone": "916-555-4321",
    "mobile": "916-555-7890",
  }
]
},
{
"teamname": "2",
"members": [
  {
    "firstname": "Mickey",
    "lastname": "Moose",
    "orgname": "Moosers",
    "phone": "916-555-0000",
    "mobile": "916-555-1111",
  },
  {
    "firstname": "Minny",
    "lastname": "Moose",
    "orgname": "Moosers",
    "phone": "916-555-2222",
    "mobile": "",
  }
]
}       
]

}

我已经尝试通过创建一个字典的字典并转储到 JSON 来做到这一点。这是我当前的代码:

data = pandas.read_excel(inputExcel, sheetname = 'SCAT Teams', encoding = 'utf8')
memberDictTuple = [] 

for index, row in data.iterrows():
    dataRow = row
    rowDict = dict(zip(columnList[2:], dataRow[2:]))

    teamRowDict = {columnList[0]:int(dataRow[0])}

    memberId = tuple(row[1:2])
    memberId = memberId[0]

    teamName = tuple(row[0:1])
    teamName = teamName[0]

    memberDict1 = {int(memberId):rowDict}
    memberDict2 = {int(teamName):memberDict1}

    memberDictTuple.append(memberDict2)

memberDictTuple = tuple(memberDictTuple)
formattedJson = json.dumps(memberDictTuple, indent = 4, sort_keys = True)
print formattedJson

这会产生以下输出。每个项目都嵌套在“teamname”1 或 2 下的正确级别，但如果它们具有相同的 teamname，则记录应嵌套在一起。我该如何解决这个问题，以便团队名称 1 和团队名称 2 中各嵌套 2 条记录？

[
    {
        "1": {
            "0": {
                "email": "john.doe@wildlife.net", 
                "firstname": "John", 
                "lastname": "Doe", 
                "mobile": "none", 
                "orgname": "Anon", 
                "phone": "916-555-1234"
            }
        }
    }, 
    {
        "1": {
            "1": {
                "email": "jane.doe@wildlife.net", 
                "firstname": "Jane", 
                "lastname": "Doe", 
                "mobile": "916-555-7890", 
                "orgname": "Anon", 
                "phone": "916-555-4321"
            }
        }
    }, 
    {
        "2": {
            "0": {
                "email": "mickey.moose@wildlife.net", 
                "firstname": "Mickey", 
                "lastname": "Moose", 
                "mobile": "916-555-1111", 
                "orgname": "Moosers", 
                "phone": "916-555-0000"
            }
        }
    }, 
    {
        "2": {
            "1": {
                "email": "minny.moose@wildlife.net", 
                "firstname": "Minny", 
                "lastname": "Moose", 
                "mobile": "none", 
                "orgname": "Moosers", 
                "phone": "916-555-2222"
            }
        }
    }
]

最佳答案

这是一个可以创建所需 JSON 格式的解决方案。首先，我按适当的列对数据框进行分组，然后我没有为每个列标题/记录对创建字典(并丢失数据顺序)，而是将它们创建为元组列表，然后将列表转换为有序字典。为其他所有内容分组的两列创建了另一个 Ordered Dict。列表和有序字典之间的精确分层对于 JSON 转换产生正确的格式是必要的。另请注意，当转储到 JSON 时，sort_keys 必须设置为 false，否则您所有的 Ordered Dict 将重新排列为字母顺序。

import pandas
import json
from collections import OrderedDict

inputExcel = 'E:\\teams.xlsx'
exportJson = 'E:\\teams.json'

data = pandas.read_excel(inputExcel, sheetname = 'SCAT Teams', encoding = 'utf8')

# This creates a tuple of column headings for later use matching them with column data
cols = []
columnList = list(data[0:])
for col in columnList:
    cols.append(str(col))
columnList = tuple(cols)

#This groups the dataframe by the 'teamname' and 'members' columns
grouped = data.groupby(['teamname', 'members']).first()

#This creates a reference to the index level of the groups
groupnames = data.groupby(["teamname", "members"]).grouper.levels
tm = (groupnames[0])

#Create a list to add team records to at the end of the first 'for' loop
teamsList = []

for teamN in tm:
    teamN = int(teamN)  #added this in to prevent TypeError: 1 is not JSON serializable
    tempList = []   #Create an temporary list to add each record to
    for index, row in grouped.iterrows():
        dataRow = row
        if index[0] == teamN:  #Select the record in each row of the grouped dataframe if its index matches the team number

            #In order to have the JSON records come out in the same order, I had to first create a list of tuples, then convert to and Ordered Dict
            rowDict = ([(columnList[2], dataRow[0]), (columnList[3], dataRow[1]), (columnList[4], dataRow[2]), (columnList[5], dataRow[3]), (columnList[6], dataRow[4]), (columnList[7], dataRow[5])])
            rowDict = OrderedDict(rowDict)
            tempList.append(rowDict)
    #Create another Ordered Dict to keep 'teamname' and the list of members from the temporary list sorted
    t = ([('teamname', str(teamN)), ('members', tempList)])
    t= OrderedDict(t)

    #Append the Ordered Dict to the emepty list of teams created earlier
    ListX = t
    teamsList.append(ListX)


#Create a final dictionary with a single item: the list of teams
teams = {"teams":teamsList} 

#Dump to JSON format
formattedJson = json.dumps(teams, indent = 1, sort_keys = False) #sort_keys MUST be set to False, or all dictionaries will be alphebetized
formattedJson = formattedJson.replace("NaN", '"NULL"') #"NaN" is the NULL format in pandas dataframes - must be replaced with "NULL" to be a valid JSON file
print formattedJson

#Export to JSON file
parsed = open(exportJson, "w")
parsed.write(formattedJson)

print"\n\nExport to JSON Complete"

关于python - 如何使用平面数据表中的嵌套记录构建 JSON 文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37713329/

文章推荐： python - 语法网入门

文章推荐： python - 将 Tensorflow 输入管道与 skflow/tf learn 结合使用

文章推荐： c# - 使用 C# 创建 Excel XML 电子表格的步骤

文章推荐： c# - 给定用户名和密码，您如何模拟提升的用户？

javascript - 在 Angular 数据表 rowCallback 函数上返回 Angular 数据表
我有一个带有嵌套数据的 angular 数据表，我正在尝试在行点击函数上创建另一个数据表。父数据表的 rowCallBack 函数。这是我的外部数据表 html；这是我生成数据表的方
数据表:在过滤器字符串中包含空格
我有一个字母数字列，其中包含诸如“1、2、2”之类的字符串。当我在搜索中输入“1, 2, 2”时，它似乎返回带有“1,”和“2,”的所有单元格。我该怎么做才能使搜索仅返回“1、2、2”？使用数据
数据表:如何使用附加参数重新加载服务器端数据
我有一个获取其数据服务器端的表，使用自定义服务器端初始化参数，这些参数因生成的报告而异。表格生成后，用户可以打开一个弹出窗口，他们可以在其中添加多个附加过滤器以进行搜索。我需要能够使用与原始表相同的初
数据表 + 隐藏所有列按钮
在 datatables我希望能够隐藏所有列，但似乎无法正确使用语法。这来自下面的代码和上面的链接，创建了一个显示所有列的按钮。有没有办法写这个以便我可以隐藏所有列？ {
数据表:根据值更改单元格颜色
我正在使用 DataTable 创建一个交互式表。我有 9 列，其中 5 列是值。我想根据它们的具体情况更改每个单元格的背景颜色。我已经开始尝试首先更改整行颜色，因为这似乎是一项更容易的任务。但是我
数据表 - 水平滚动时列标题不会移动
我有一个简单的例子来说明我的问题。我正在使用数据表 1.9。当数据表位于另一个 html 表内时，水平滚动时列标题不会移动。当它不在 html 表中时它工作正常。我的示例实际上取自他们的水平滚动示例，
数据表 - 使用嵌套独立表向下钻取行
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
数据表 + 如何将服务器端处理代码与文件导出代码结合起来
这是添加按钮以将数据导出到 csv、pdf、excel 的数据表示例...... fiddle here https://datatables.net/extensions/buttons/examp
angularjs - 数据表 - 更改按钮样式
是否有任何方法可以更改 angularjs 数据表中的按钮样式(colvis、copy、print、excel)。 vm.dtOptions = DTOptionsBuilder.newOptions
R 数据表 - 加入但过滤更新
我试图弄清楚如何加入 2 个数据表并更新第一个但应用了过滤器。 DT DT2 b c 1: 1 10 2: 2 10 3: 3 10 4: 4 10 5: 5 10 6: 6 10 7: 7 10
r - 数据表 - 从另一列按名称选择列的值
我有一个数据表，其中包含许多包含值的列。我还有另一列，它定义了我需要选择哪些列的值。我很难找到一种方法来做到这一点。这是一个简单的例子。 > d d value.1 value.2 name
r - 数据表 - 在几列上应用相同的函数来创建新的数据表列
我正在使用 data.table 包。我有一个数据表，表示用户在网站上的操作。假设每个用户都可以访问一个网站，并对其执行多项操作。我的原始数据表是 Action (每一行都是一个 Action )，我
r - 数据表。快速计算每列内更改次数的方法
我想知道每个变量在每个组中变化了多少次，然后将结果添加到所有组中。我是这样找到的: mi[,lapply(.SD, function(x) sum(x != shift(x), na.rm=T)
button - 数据表 - 添加按钮到页眉或页脚
有人可以向我解释一下如何向页眉或页脚添加按钮吗？Datatables 的开发者 Alan 说你必须离开网络服务器才能使用 Table Tools 来使用按钮。但我在独立计算机上离线运行 Datatab
R 数据表 - 使用当前行之前的所有行计算每一行
我希望按 id 和按顺序(时间)计算不同的东西。例如，与: dt = data.table( id=c(1,1,1,2,2,2,3,3,3), hour=c(1,5,5,6,7,8,23,23,23
jquery - 数据表:没有分页按钮
我正在尝试在 JIRA 小工具中使用数据表，但在我的表准备就绪后，没有可用的分页按钮。我有一个表，我正在以最简单的方式使用数据表:$("#mytableid").dataTable(); 浏览页面元素
jquery - 将输入值保存在子行中 - 数据表
我有 responsive 表单中的数据表。数据表生成 child rows在小型设备上。在这一行中，我有一些输入控件。这会导致两个问题。第一个问题:**隐藏子行中的值不会进入表单数据。** 第二
JQuery 数据表 Keydown
我在使用 JQuery DataTable 捕获 keydown 事件时遇到问题。我的目标是允许用户使用箭头键导航表的行。因此，当用户按下箭头键时，我想捕获 keydown 事件并移动表的选定行(这是
jQuery 数据表，以编程方式更改显示的行数
是否有任何方法可以以编程方式更改显示的行数，而无需从下拉列表中手动选择？我已经知道如何更改默认行数。当表首次加载时，我希望它加载所有行，然后“刷新”表以可能仅显示前 10 行。但我想以编程方式刷新表
jquery - 数据表 - 回调后保留选定的页码
我有一个数据表，我应该对其进行更改，例如我想更改内容的状态，但该内容位于表的第三页。当我更改它时，数据表会自行刷新到第一页。我想做的是保留选定的页码并在刷新后回调它。这可能吗？顺便说一句，我正在使用

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何使用平面数据表中的嵌套记录构建 JSON 文件？