- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试找到一种从平面 Pandas DataFrame 实例创建(可能很深)嵌套字典的通用方法。
假设我有以下 DataFrame:
dat = pd.DataFrame({'name' : ['John', 'John', 'John', 'John', 'Henry', 'Henry'],
'age' : [24, 24, 24, 24, 31, 31],
'gender' : ['Male','Male','Male','Male','Male','Male'],
'study' : ['Mathematics', 'Mathematics', 'Mathematics', 'Philosophy', 'Physics', 'Physics'],
'course' : ['Calculus 101', 'Calculus 101', 'Calculus 102', 'Aristotelean Ethics', 'Quantum mechanics', 'Quantum mechanics'],
'test' : ['Exam', 'Essay','Exam','Essay', 'Exam1','Exam2'],
'pass' : [True, True, True, True, True, True],
'grade' : ['A', 'A', 'B', 'A', 'C', 'C']})
dat = dat[['name', 'age', 'gender', 'study', 'course', 'test', 'grade', 'pass']] #re-order columns to better reflect data structure
我想创建一个深度嵌套的字典(或嵌套字典列表),它“尊重”该数据的底层结构。也就是说,成绩是关于测试的信息,测试是类(class)的一部分,是学习的一部分,一个人所做的。此外,年龄和性别是关于同一个人的信息。
一个示例所需的输出是这样的:
[{'John': {'age': 24,
'gender': 'Male',
'study': {'Mathematics': {'Calculus 101': {'Exam': {'grade': 'B',
'pass': True}}},
'Philosophy': {'Aristotelean Ethics': {'Essay': {'grade': 'A',
'pass': True}}}}}},
{'Henry': {'age': 31,
'gender': 'Male',
'study': {'Physics': {'Quantum mechanics': {'Exam1': {'Grade': 'C',
'Pass': True},
'Exam2': {'Grade': 'C',
'Pass': True}}}}}}]
(尽管可能有其他类似的方法来构造此类数据)。
我尝试使用 groupby,这使得它很容易,例如,将 'grade' 和 'pass' 嵌套在 'test' 下,将 'test' 嵌套在 'course' 下,将 'course' 嵌套在 'study' 下,以及 '在“姓名”下学习“。但是,我也看不到如何在“姓名”下添加“性别”和“年龄”?像这样的东西是我想出的最好的东西:
dic = {}
for ind, row in dat.groupby(['name', 'study', 'course', 'test'])['grade', 'pass']:
#this is ugly and not very generic, but just as an example
if not ind[0] in dic:
dic[ind[0]] = {}
if not ind[1] in dic[ind[0]]:
dic[ind[0]][ind[1]] = {}
if not ind[2] in dic[ind[0]][ind[1]]:
dic[ind[0]][ind[1]][ind[2]] = {}
if not ind[3] in dic[ind[0]][ind[1]][ind[2]]:
dic[ind[0]][ind[1]][ind[2]][ind[3]] = {}
dic[ind[0]][ind[1]][ind[2]][ind[3]]['grade'] = row['grade'].values[0]
dic[ind[0]][ind[1]][ind[2]][ind[3]]['pass'] = row['pass'].values[0]
但在这种情况下,“年龄”和“性别”并未嵌套在“姓名”下。我似乎无法理解如何做到这一点......
另一种选择是设置一个 MultiIndex 并进行 .to_dict('index') 调用。但是话又说回来,我看不出如何将字典和非字典嵌套在一个键下......
我的问题和这个类似: Convert pandas DataFrame to a nested dict ,但我正在寻找更复杂的嵌套(例如,不仅仅是应该嵌套在所有其他列下的最后一列)。Stackoverflow 上的大多数其他问题要求相反:从深度嵌套的字典创建(可能是 MultiIndex)DataFrame。
编辑:问题也类似于这个问题:Pandas convert Dataframe to Nested Json ,但在那个问题中,只有最后列(例如,列n)应该嵌套在所有其他列(n-1,< em>n-2 等;完全递归嵌套)。在我的问题中,列 n 和 n-1 应该嵌套在 n-2 下,但是列 n-2 和 n-3 应该嵌套在 n-4 下(因此,重要的是,n-2 不是嵌套在 n-3 下但在 n-4 下)。 Mohammad Yusuf Ghazi 提供的 MultiIndex 部分解决方案很好地描述了该结构。
最佳答案
不是很简洁,但这是我现在能得到的最好的:
>>> def rollup1(x):
... return x.set_index('test')[['grade', 'pass']].to_dict(orient='index')
>>> def rollup2(x):
... return x.groupby('course').apply(rollup1).to_dict()
>>> def rollup3(x):
... return x.groupby('study').apply(rollup2).to_dict()
>>> df = dat.groupby(['name','age','gender']).apply(rollup3)
>>> df.name = 'study'
>>> res = df.reset_index(level=[1,2]).to_dict(orient='index')
>>> pprint.pprint(res)
{'Henry': {'age': 31L,
'gender': 'Male',
'study': {'Physics': {'Quantum mechanics': {'Exam1': {'grade': 'C',
'pass': True},
'Exam2': {'grade': 'C',
'pass': True}}}}},
'John': {'age': 24L,
'gender': 'Male',
'study': {'Mathematics': {'Calculus 101': {'Essay': {'grade': 'A',
'pass': True},
'Exam': {'grade': 'A',
'pass': True}},
'Calculus 102': {'Exam': {'grade': 'B',
'pass': True}}},
'Philosophy': {'Aristotelean Ethics': {'Essay': {'grade': 'A',
'pass': True}}}}}}
想法是将数据汇总到字典,同时将数据分组以获得“研究”列
更新我试图创建更通用的解决方案,因此它适用于 this one 这样的问题还有:
def rollup_to_dict_core(x, values, columns, d_columns=None):
if d_columns is None:
d_columns = []
if len(columns) == 1:
if len(values) == 1:
return x.set_index(columns)[values[0]].to_dict()
else:
return x.set_index(columns)[values].to_dict(orient='index')
else:
res = x.groupby([columns[0]] + d_columns).apply(lambda y: rollup_to_dict_core(y, values, columns[1:]))
if len(d_columns) == 0:
return res.to_dict()
else:
res.name = columns[1]
res = res.reset_index(level=range(1, len(d_columns) + 1))
return res.to_dict(orient='index')
def rollup_to_dict(x, values, d_columns=None):
if d_columns is None:
d_columns = []
columns = [c for c in x.columns if c not in values and c not in d_columns]
return rollup_to_dict_core(x, values, columns, d_columns)
>>> pprint(rollup_to_dict(dat, ['pass', 'grade'], ['age','gender']))
{'Henry': {'age': 31L,
'gender': 'Male',
'study': {'Physics': {'Quantum mechanics': {'Exam1': {'grade': 'C',
'pass': True},
'Exam2': {'grade': 'C',
'pass': True}}}}},
'John': {'age': 24L,
'gender': 'Male',
'study': {'Mathematics': {'Calculus 101': {'Essay': {'grade': 'A',
'pass': True},
'Exam': {'grade': 'A',
'pass': True}},
'Calculus 102': {'Exam': {'grade': 'B',
'pass': True}}},
'Philosophy': {'Aristotelean Ethics': {'Essay': {'grade': 'A',
'pass': True}}}}}}
关于python - 从 Pandas DataFrame 创建复杂的嵌套字典,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41283161/
所以我试图设置“内容”类的高度,但它似乎不起作用。我对嵌套 DIV 非常陌生,我已经尝试了我在谷歌搜索中发现的修复程序,但似乎没有任何效果。帮助?
好的,所以我一直在四处寻找,但找不到这个问题的答案。但是,我需要将一个 View 嵌套在另一个 View 中。 我有一个 $layout 正在使用我拥有的 default.layout Blade 文
好的,所以我一直在四处寻找,但找不到这个问题的答案。但是,我需要将一个 View 嵌套在另一个 View 中。 我有一个 $layout 正在使用我拥有的 default.layout Blade 文
基本上,我的问题很简单,但它需要知道 Struts 1.1 并且还活着的人。 我尝试构建的伪代码看起来像这样: IF element.method1 = true THEN IF element
我正在尝试将 Excel 嵌套 IF 语句转换为代码语言,但我不确定我是否正确执行此操作,希望能得到一些帮助 这是Excel语句: =IF(D3="Feather",IF(OR(I3>1000,R3=
如果我们创建两个或三个评论并对其进行多次回复,则“有用”链接在单击时会导致问题,它会对具有相同编号的索引执行 ng-click 操作,从而显示具有相同索引的所有文本。如何解决此嵌套问题,以便在单击链接
我在项目中使用Scala,想与Stripe集成,但它只提供Java API。例如,要创建 session ,我使用: val params = new util.HashMap[String, Any
以下代码有一个 Div,其中连续包含四个较小的 Div。四个 Div 中的每一个还包含一个较小的 Div,但此 Div 未显示。我尝试了各种显示和位置组合,看看 div 是否会出现。 classGoa
我在这里有一个问题,循环是: for (i=0; i < n; ++i) for (j = 3; j < n; ++j) { ...
我正在尝试编写代码来显示具有奇数宽度的形状。形状完成后,将其放置在外部形状内。用户将能够输入用于形状的字符和行数。我希望生成一个形状,并通过 for 循环生成一个外部形状。 ***** .
$(".globalTabs").each(function(){ var $globalTabs = $(this); var parent = $globalTabs.parent
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve th
所以我在这个问题上遇到了一些麻烦,因为变量 i。我只是不确定在第二个 while 循环中如何处理它。对于我的外循环,我知道它将运行 log_4(n^2) 次迭代。对于内部 while 循环,我计算的迭
我似乎找不到在枚举上应用多个 if/then 逻辑的工作方式。 anyOf 不应用条件逻辑,而是表示如果其中任何一个匹配则很好。 allOf 再次不应用条件逻辑,而是测试属性/必填字段的超集。 这是一
如何访问 ReaderT 的内部 monad。 在我的例子中,我有类型: newtype VCSSetupAction a = VCSSetupAction (ReaderT (Maybe VCSCo
这个问题在这里已经有了答案: Add leading zeroes/0's to existing Excel values to certain length (7 个回答) 7年前关闭。 我正在寻
我已经绑定(bind)了很多 AND/OR 函数的组合并且没有运气。 这是我需要创建的: 在 B 列中,我有公司 ID,范围从两个数字字符到六个数字字符。 我需要在 B 列中的每个公司 ID 之前的每
我是 VBA 新手,在尝试编写的宏中使用 If 语句时遇到了一些困难。每个月我都会收到一份 Excel 报告,其中列出了我们公司的哪些员工执行了某些任务。我正在编写的宏旨在将每个员工的数据复制并粘贴到
如果在 B 列中找到单元格 A1 中的值,则使用文本 321 填充除非在 C 列中找到单元格 A1 中的值,在这种情况下填充文本 121反而。如果单元格 A1 的内容不在 B 列或 C 列中,则使用
我有几十万个地址。其中一些在整数之后有粒子。如 4356 A Horse Avenue , 其他格式正常4358 Horse Avenue .有些有“A”,有些有“B”。我正在尝试删除整数和粒子之间的
我是一名优秀的程序员,十分优秀!