python - 采取 Pandas (python)中每隔一列的行均值-6ren

python - 采取 Pandas (python)中每隔一列的行均值

转载作者：行者123 更新时间：2023-12-04 00:55:35

26

4

我正在尝试对每几列取行平均值。这是一个示例数据集。

d = {'2000-01': range(0,10), '2000-02': range(10,20), '2000-03': range(10,20),
     '2001-01': range(10,20), '2001-02':range(5,15), '2001-03':range(5,15)}
pd.DataFrame(data=d)

     2000-01  2000-02  2000-03  2001-01  2001-02  2001-03
0        0       10       10       10        5        5
1        1       11       11       11        6        6
2        2       12       12       12        7        7
3        3       13       13       13        8        8
4        4       14       14       14        9        9
5        5       15       15       15       10       10
6        6       16       16       16       11       11
7        7       17       17       17       12       12
8        8       18       18       18       13       13
9        9       19       19       19       14       14

我需要对完整数据集中的前三列和接下来的三列进行行均值处理，依此类推。我不需要新数据集中的原始列。这是我的代码。它有效但有警告(下面讨论)。如果可能的话，我正在寻找一种更清洁、更优雅的解决方案。 (Python/Pandas 新手)

#Create empty list to store row means
d1 = []

#Run loop to find row means for every three columns
for i in np.arange(0, 6, 3):
    data1 = d.iloc[:,i:i+3]
    d1.append(data1.mean(axis=1))

#Create empty list to concat DFs later
dlist1 =[]

#Concat DFs
for j in range(0,len(d1)):
    dlist1.append(pd.Series(d1[j]).to_frame())
pd.concat(dlist1, axis = 1)

我得到这个输出，这是正确的:

          0          0
0   6.666667   6.666667
1   7.666667   7.666667
2   8.666667   8.666667
3   9.666667   9.666667
4  10.666667  10.666667
5  11.666667  11.666667
6  12.666667  12.666667
7  13.666667  13.666667
8  14.666667  14.666667
9  15.666667  15.666667

列名很容易固定，但问题是我需要它们的特定格式，而我在实际数据集中有 65 个这样的列。如果您注意到原始数据集中的列名，它们是 '2000-01'； '2000-02'; '2000-03'。 1,2 和 3 是 2000 年的月份，因此新 df 的第 1 列应该是 '2000q1' ，q1 是第 1 季度。我如何遍历列名来为所有创建它我的新专栏？这似乎比显示的更具挑战性(至少对我而言!)here .感谢您的宝贵时间!

编辑:好的，这已经解决了，快速向所有做出贡献的人大声喊叫!

最佳答案

我们为 axis=1 设置了 groupby，这里使用 numpy 数组获取除数

df=df.groupby(np.arange(df.shape[1])//3,axis=1).mean()
           0          1
0   6.666667   6.666667
1   7.666667   7.666667
2   8.666667   8.666667
3   9.666667   9.666667
4  10.666667  10.666667
5  11.666667  11.666667
6  12.666667  12.666667
7  13.666667  13.666667
8  14.666667  14.666667
9  15.666667  15.666667

#np.arange(df.shape[1])//3
#array([0, 0, 0, 1, 1, 1])

更常见的方式

df.columns=pd.to_datetime(df.columns,format='%Y-%m').to_period('Q')
df=df.groupby(level=0,axis=1).mean()
      2000Q1     2001Q1
0   6.666667   6.666667
1   7.666667   7.666667
2   8.666667   8.666667
3   9.666667   9.666667
4  10.666667  10.666667
5  11.666667  11.666667
6  12.666667  12.666667
7  13.666667  13.666667
8  14.666667  14.666667
9  15.666667  15.666667

关于python - 采取 Pandas (python)中每隔一列的行均值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62747617/

26

4

0

文章推荐： sql-server - SELECT DISTINCT 的替代方法

文章推荐： search-engine - 程序员友好的搜索引擎？

文章推荐： python - 循环 Pandas 数据框

java - 采取|| (或)语句作为输入？
我的类有一个 foo 方法和一个 main 方法，其中有一些变量和一个 print 语句。 public static boolean foo(int x, boolean b) { if (
python - 采取 Pandas (python)中每隔一列的行均值
我正在尝试对每几列取行平均值。这是一个示例数据集。 d = {'2000-01': range(0,10), '2000-02': range(10,20), '2000-03': range(10,
cuda - CUDA中分支的概念(采取、不采取、发散)
在 Nsight Visual Studio 中，我们将有一个图表来呈现“已采取”、“未采取”和“分歧”分支的统计信息。我对“不采取”和“分歧”之间的区别感到困惑。例如 kernel() { if
cuda - CUDA中分支的概念(采取、不采取、发散)
在 Nsight Visual Studio 中，我们将有一个图表来呈现“已采取”、“未采取”和“分歧”分支的统计信息。我对“不采取”和“分歧”之间的区别感到困惑。例如 kernel() { if
c - 采取 long int 时的可疑指针转换
int main() { long int i,t,n,q[500],d[500],s[500],res[500]={0},j,h; scanf("%ld",&t); whil
stream - Racket :采取:违反契约(Contract)
我在 Linux 上使用 racket v6.5 repl 并尝试运行流教程中的 take 函数示例 https://docs.racket-lang.org/functional-data-stru
r - 在 ggpairs 中加入独立的图例(采取 2)
tl;博士无法在 ggpairs 中获得独立的图例(描述整个情节的常用颜色)令我满意。对不起，长度。我正在尝试使用 GGally::ggpairs 绘制(下三角形)对图(用于绘制各种绘图矩阵的扩展
JQuery 根据点击显示带有 id 的图像(采取 2)
几个月前我问过this question 。我想添加一个具有不同背景的相同 div。我想知道为什么 jQuery 在第二个 div 中不起作用？我发现仅当我单击第二个 div 中的小图像时，图像才会在
python - 在 django 中执行右连接(采取 2)
引用Performing a right join in django ，当我尝试类似的方法时(字段略有不同): class Student: user = ForeignKey(User)
ios - 采取 UIAlertAction 后 View 未关闭
所以我使用带有 Action Sheet 样式的 UIAlertController 来显示两个选项，一个用于取消操作，另一个用于删除数据。按钮工作正常，删除按钮工作，操作表关闭。我的问题是，在后台从
jQuery/jQueryUI Droppable 采取 Draggable 的形式
我有一个列表，其中每个单元格都是一个可放置的对象，可以接受某个类的可拖动对象。该表的边框是可见的，但我不希望固定大小的单元格着色且可见，这对我来说很难看。当我拖动一个可拖动对象与一个单元格相交时，该单
apache-spark - 缓存后立即“采取”操作 RDD 仅导致 2% 的缓存
我有一个 RDD，它是通过读取一个大小约为 117MB 的本地文本文件形成的。 scala> rdd res87: org.apache.spark.rdd.RDD[String] = MapPart
algorithm - n 步，采取 1、2 或 3 步。有多少种方式可以登顶？
如果我们有 n 级台阶并且我们可以一次上 1 或 2 级台阶，则台阶数和攀登台阶的方式之间存在斐波那契关系。当且仅当我们不认为 2+1 和 1+2 不同。但是，情况不再如此，我们还必须添加第三个选项
c# - 为什么这个 Linq 不起作用(将 Linq 表达式转换为 URI : Can only specify query options (orderby, 的错误，其中，采取，跳过)
var query = from ch in Client.wcf.context.CashHeading where ch.Id_customer == customern//cc.Id

首页

博学

6Ren·AI

商城

python - 采取 Pandas (python)中每隔一列的行均值