python - 前 N 个最相关列的平均值的 DataFrame-6ren

python - 前 N 个最相关列的平均值的 DataFrame

转载作者：行者123 更新时间：2023-11-30 22:54:39

25

4

我有一个数据框df1，其中每列代表返回的时间序列。我想创建一个新的数据框 df2 ，其中的列对应于 df1 中的每一列，其中 df2 中的列被定义为df1 中前 5 个最相关列的平均值。

import pandas as pd
import numpy as np
from string import ascii_letters

np.random.seed([3,1415])
df1 = pd.DataFrame(np.random.randn(100, 10).round(2),
                   columns=list(ascii_letters[26:36]))

print df1.head()

      A     B     C     D     E     F     G     H     I     J
0 -2.13 -1.27 -1.97 -2.26 -0.35 -0.03  0.32  0.35  0.72  0.77
1 -0.61  0.35 -0.35 -0.42 -0.91 -0.14  0.75 -1.50  0.61  0.40
2 -0.96  1.49 -0.35 -1.47  1.06  1.06  0.59  0.30 -0.77  0.83
3  1.49  0.26 -0.90  0.38 -0.52  0.05  0.95 -1.03  0.95  0.73
4  1.24  0.16 -1.34  0.16  1.26  0.78  1.34 -1.64 -0.20  0.13

我希望生成的数据帧的 head 舍入到 2 个位置，如下所示:

      A     B     C     D     E     F     G     H     I     J
0 -0.78 -0.70 -0.53 -0.45 -0.99 -0.10 -0.47 -0.86 -0.31 -0.64
1 -0.49 -0.11 -0.45 -0.03 -0.04  0.10 -0.26  0.11 -0.06 -0.10
2  0.03  0.13  0.54  0.33 -0.13  0.27  0.22  0.32  0.41  0.27
3 -0.22  0.13  0.19  0.58  0.63  0.24  0.34  0.51  0.32  0.22
4 -0.04  0.31  0.23  0.52  0.43  0.24  0.07  0.31  0.73  0.43

最佳答案

对于相关矩阵中的每一列，取最大的六列并忽略第一列(即与其自身 100% 相关)。使用字典理解对每一列执行此操作。

使用另一个字典理解在 df1 中找到此列并获取它们的平均值。根据结果创建一个数据框，并通过附加 [df1.columns] 对列重新排序以匹配 df1 的列。

corr = df1.corr()
most_correlated_cols = {col: corr[col].nlargest(6)[1:].index
                        for col in corr}

df2 = pd.DataFrame({col: df1.loc[:, most_correlated_cols[col]].mean(axis=1) 
                    for col in df1})[df1.columns]

>>> df2.head()
       A      B      C      D      E      F      G      H      I      J
0 -0.782 -0.698 -0.526 -0.452 -0.994 -0.102 -0.472 -0.856 -0.310 -0.638
1 -0.486 -0.106 -0.454 -0.032 -0.042  0.100 -0.258  0.108 -0.064 -0.102
2  0.026  0.132  0.544  0.330 -0.130  0.272  0.224  0.320  0.414  0.274
3 -0.224  0.128  0.186  0.582  0.626  0.242  0.344  0.506  0.318  0.224
4 -0.044  0.310  0.230  0.518  0.428  0.238  0.068  0.306  0.734  0.432

%%timeit
corr = df1.corr()
most_correlated_cols = {
   col: corr[col].nlargest(6)[1:].index
   for col in corr}
df2 = pd.DataFrame({col: df1.loc[:, most_correlated_cols[col]].mean(axis=1) 
                    for col in df1})[df1.columns]
100 loops, best of 3: 10 ms per loop

%%timeit
corr = df1.corr()
df2 = corr.apply(argsort).head(5).apply(lambda x: avg_of(x, df1))
100 loops, best of 3: 16 ms per loop

关于python - 前 N 个最相关列的平均值的 DataFrame，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37691075/

25

4

0

文章推荐： c# - 用于匹配空格或标点符号和非字母数字的正则表达式

文章推荐： python - 将 1d 数组添加到 3d 数组的每个 2d 数组上

文章推荐： python - 使用 Pip 安装 Flask

文章推荐： python - PyQt:监听 ip、端口时窗口停止响应

opencv - 如何使用 cvAvg 或 mean 计算一组 ROI 中像素的 'single' 平均值/平均值？
我有一个大小为 320x320 像素的阈值图像。我通过设置 ROI 以 20x20 像素的 block 循环遍历整个图像。我需要找到每个 block 的平均值。所以我将这些图像 block 传递给函数
Javascript 平均值
我正在尝试学习 Javascript。我已经构建了以下代码来从一组数字中找到平均值。它有效除了最后返回的值总是 NaN。我不知道为什么。如果我将这 block 移到 block 外，它似乎完全忘记了变
Pandas 获得预聚合数据的中位数/平均值
假设我的数据已经分组，我该如何计算中位数和其他统计数据？ Index Value Count 0 6 2 1 2 3 2 9 8 在上面
EXCEL计算给定关键字的OFFSET(未指定坐标)平均值
我试图计算的有趣情况。基本上在一行中，我有产品名称，其右侧的行是自首次收到产品以来经过的天数。为 ex 计算的天数是 =TODAY()-BB2 我现在要做的是识别让我们说产品词“卡车”，然后计算卡车
r - 计算累积平均值(平均值)
我想知道如何计算某些数字的累积平均值。我将举一个简单的例子来描述我在寻找什么。我有以下号码 vec 1) 为您的向量(或列表、一维数组或您如何称呼它)的每个元素评估此表达式，您将获得累积平均值。
具有空值的 Laravel 平均值
我正在尝试对数据库表中的每一行进行平均。但它不能正常工作我想忽略该值，如果为空，它不会计算为零。使用我的代码，它将空值计算为零我想这样做 MS Excel 如果行/单元格为空，它将忽略。 Contro
sql - 获取定义相等时间段的记录的总和/平均值
我有以下信息(按 View 返回): DateTime ItemID UserTyp Seconds 2012-01-01 10 S 12 2012-01-01
Excel 平均值 - 计算变量数量
我正在使用excel的average函数来获取欧洲各个城市一系列酒店价格的平均值。 =average(21,42,63,84,105) 我希望能够计算每个平均函数中的变量数量(例如，在上面的示例中有
python - 如何找到pandas中多列的非零中位数/平均值？
我有一长串列，我想一次性计算非零中位数、平均值和标准差。我不能只删除基于 1 列的 0 行，因为同一列中另一列的值可能不是 0。下面是我目前的代码，用于计算中位数、平均值等，包括零。 agg
求和的 MySQL 平均值
这是我的问题: 我有一张这样的 table : Table Log int id; int time; timestamp DATE; int sid (FK to table Site);
数组内值的 JavaScript 平均值
JSON: [{"id":"1","user":"001","answer":"1,1,3,2,2,1,3,2"}, {"id":"2","user":"002","answer":"2,3,3,2,
Mysql 数据库 - 平均值
有个问题: 使用适当的列名称，显示 obs 类型“CONT”的允许 ID 和平均 obs 值，其中 CONT 的平均 obs 值 >= 40。假设承认是表1，观察是表2，但具有相同的主键Admit_
来自多列和空值的每行 SQL 平均值
我有一个记录传感器数据的应用程序，我希望能够从多个传感器生成平均值，可以是一个、两个、三个或很多... 编辑:这些是温度传感器，因此 0 是传感器可能作为值存储在数据库中的值。我最初的出发点是这个
python - 数据框中标志切换之间的行的总和/平均值
我有这样一个数据框 id power flag 0 20 0 1 25 0 2 26 1 3 30 1 4 18 0 5
C++ BLOB 平均值
我想计算所有事件 blob 的平均位置。为此，首先我需要所有 X 和 Y 位置的总和。在这种情况下我该怎么做？ contourFinder.findContours(grayImg, minB
Java 平均值，跳跃
我是一个十足的 Java 新手。上周一开始，之前从未用任何语言进行过任何编程。因此，如果我发现简单的事情变得复杂，请耐心等待。我收到了一个文本文件。如下图: 第一个数据是时间(午夜过后的秒数)，第二
lisp - 如何在奈奎斯特中找到声音的均值/平均值
我正在尝试为 Audacity 编写一个简单的测量插件，它就像用石头砸我的头骨一样有趣。我想要做的就是获取一段音频并找到所有样本的平均值(该 block 的 DC offset )，这样我就可以将它作
mongodb - 计算给定地理多边形内的$平均值
我正在尝试计算给定多边形内的值: 实际上我正在使用这个管道: 'aggregation': { 'pipeline': [ { "$match" : {
python - 数据框中列表的 Pandas 平均值
我有一个 pandas DataFrame，其中包含包含列表的列。我正在尝试获取此专栏中列表的方法。这是我的 DataFrame 的示例: Loc Background 0
c - 用SSE计算4d vector 平均值
我尝试加速计算放置在数组中的4d向量的平均值。这是我的代码： #include #include #include #include #include #include typedef f

首页

博学

6Ren·AI

商城

python - 前 N 个最相关列的平均值的 DataFrame