python - `pandas.DataFrame.apply` 逐行操作-6ren

python - `pandas.DataFrame.apply` 逐行操作

转载作者：行者123 更新时间：2023-11-30 23:39:47

32

4

我想返回一个数据帧，其中每行均已排序(假设是降序)。所以如果我有 pandas.DataFrame命名data :

In [38]: data
Out[38]: 
                  c1        c2        c3        c4        c5        c6
Date                                                                  
2012-10-22  0.973371  0.226342  0.968282  0.872330  0.273880  0.746156
2012-10-19  0.497048  0.351332  0.310025  0.726669  0.344202  0.878755
2012-10-18  0.315764  0.178584  0.838223  0.749962  0.850462  0.400253
2012-10-17  0.162879  0.068409  0.704094  0.712860  0.537545  0.009789

我希望返回以下内容:

In [39]: sorted_frame
Out[39]: 
                   0         1         2         3         4         5
Date                                                                  
2012-10-22  0.973371  0.968282  0.872332  0.746156  0.273880  0.226342
2012-10-19  0.878755  0.726669  0.497048  0.351332  0.344202  0.310025
2012-10-18  0.850462  0.838223  0.749962  0.400253  0.315764  0.178584
2012-10-17  0.712860  0.704094  0.537545  0.162879  0.068409  0.009789

我已经尝试过DataFrame.sort(axis = 1)但是，这并没有达到预期的结果:

In [40]: data.sort(axis = 1)
Out[43]: 
                  c1        c2        c3        c4        c5        c6
Date                                                                  
2012-10-22  0.973371  0.226342  0.968282  0.872330  0.273880  0.746156
2012-10-19  0.497048  0.351332  0.310025  0.726669  0.344202  0.878755
2012-10-18  0.315764  0.178584  0.838223  0.749962  0.850462  0.400253
2012-10-17  0.162879  0.068409  0.704094  0.712860  0.537545  0.009789

我创建了以下函数来完成我正在寻找的功能(使用 pandas.TimeSeries.order() ):

import numpy

def sorted_by_row(frame, ascending = False):
    vals = numpy.tile(numpy.nan,frame.shape)
    for row in numpy.arange(frame.shape[0]):
        vals[row, :] = frame.ix[row, :].order(ascending = ascending)
    return pandas.DataFrame(vals, index = frame.index)

但是，我的目标是能够在 DataFrame.apply() 中使用逐行函数。方法(这样我就可以将所需的功能应用到我构建的其他功能中)。我试过:

 #TimeSeries.order() sorts a pandas.TimeSeries object
 data.apply(lambda x: x.order(), axis = 1)

但同样，我没有得到想要的 DataFrame上面(我已经输出了足够的 DataFrame' ，所以我将节省页面的空间)。

非常感谢您的帮助，

-B

最佳答案

嗯，开箱即用的 pandas 并不是那么容易实现的。首先，熟悉argsort:

In [8]: df
Out[8]: 
                   0         1         2         3         4
2012-10-17  1.542735  1.081290  2.602967  0.748706  0.682501
2012-10-18  0.058414  0.148083  0.094104  0.716789  2.482998
2012-10-19  2.396277  0.524733  2.169018  1.365622  0.590767
2012-10-20  0.513535  1.542485  0.186261  2.138740  1.173894
2012-10-21  0.495713  1.401872  0.919931  0.055136  1.358439
2012-10-22  1.010086  0.350249  1.116935  0.323305  0.506086

In [12]: inds = df.values.argsort(1)

In [13]: inds
Out[13]: 
array([[4, 3, 1, 0, 2],
       [0, 2, 1, 3, 4],
       [1, 4, 3, 2, 0],
       [2, 0, 4, 1, 3],
       [3, 0, 2, 4, 1],
       [3, 1, 4, 0, 2]])

这些是每行的间接排序索引。现在你想做一些类似的事情:

new_values = np.empty_like(df)
for i, row in enumerate(df.values):
    # sort in descending order
    new_values[i] = row[inds[i]][::-1]

sorted_df = DataFrame(new_values, index=df.index)

不太令人满意，但它完成了工作:

In [15]: sorted_df
Out[15]: 
                   0         1         2         3         4
2012-10-17  2.602967  1.542735  1.081290  0.748706  0.682501
2012-10-18  2.482998  0.716789  0.148083  0.094104  0.058414
2012-10-19  2.396277  2.169018  1.365622  0.590767  0.524733
2012-10-20  2.138740  1.542485  1.173894  0.513535  0.186261
2012-10-21  1.401872  1.358439  0.919931  0.495713  0.055136
2012-10-22  1.116935  1.010086  0.506086  0.350249  0.323305

更一般地说，你可以这样做:

In [23]: df.apply(lambda x: np.sort(x.values)[::-1], axis=1)
Out[23]: 
                   0         1         2         3         4
2012-10-17  2.602967  1.542735  1.081290  0.748706  0.682501
2012-10-18  2.482998  0.716789  0.148083  0.094104  0.058414
2012-10-19  2.396277  2.169018  1.365622  0.590767  0.524733
2012-10-20  2.138740  1.542485  1.173894  0.513535  0.186261
2012-10-21  1.401872  1.358439  0.919931  0.495713  0.055136
2012-10-22  1.116935  1.010086  0.506086  0.350249  0.323305

但您负责自己分配新列

关于python - `pandas.DataFrame.apply` 逐行操作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13261855/

32

4

0

文章推荐： python - 按钮回调怎么写？

文章推荐： python - Popen.communicate 转义我发送到 stdin 的字符串

文章推荐： python - 在 Python 中过滤列表

文章推荐： python - 奇怪的django文件上传错误

pandas - Pandas 交叉表与 Pandas 数据透视表有何不同？
pandas.crosstab 和 Pandas 数据透视表似乎都提供了完全相同的功能。有什么不同吗？最佳答案 pivot_table没有 normalize争论，不幸的是。在 crosstab
pandas - 从 pandas 值序列创建 pandas 区间序列
我能找到的最接近的答案似乎太复杂:How I can create an interval column in pandas? 如果我有一个如下所示的 pandas 数据框: +-------+ |
pandas - 将一列值移动到另一列 - Pandas
这是我用来将某一行的一列值移动到同一行的另一列的当前代码: #Move 2014/15 column ValB to column ValA df.loc[(df.Survey_year == 201
pandas - 如何将包含 bins 的 pandas 数据框写入文件以便将其读回 pandas？
我有一个以下格式的 Pandas 数据框: df = pd.DataFrame({'a' : [0,1,2,3,4,5,6], 'b' : [-0.5, 0.0, 1.0, 1.2, 1.4,
pandas - Pandas 数据框行上的克罗内克积
所以我有这两个数据框，我想得到一个新的数据框，它由两个数据框的行的克罗内克积组成。正确的做法是什么？举个例子:数据框1 c1 c2 0 10 100 1 11 110 2 12
pandas - Pandas 条形图中的刻度标签重叠
TL;DR:在 pandas 中，如何绘制条形图以使其 x 轴刻度标签看起来像折线图？我制作了一个间隔均匀的时间序列(每天一个项目)，并且可以像这样很好地绘制它: intensity[350:450
pandas - Pandas 中两个时间戳之间的差异
我有以下两个时间列，“Time1”和“Time2”。我必须计算 Pandas 中的“差异”列，即 (Time2-Time1): Time1 Time2
pandas - ( Pandas )根据顺序无关紧要的子集删除重复项
从这个 df 去的正确方法是什么: >>> df=pd.DataFrame({'a':['jeff','bob','jill'], 'b':['bob','jeff','mike']}) >>> df
pandas - Pandas 中唯一值的累积计数
我想按周从 Pandas 框架中的列中累积计算唯一值。例如，假设我有这样的数据: df = pd.DataFrame({'user_id':[1,1,1,2,2,2],'week':[1,1,2,1,
pandas - Pandas 更改数据透视表中列的顺序
数据透视表的表示形式看起来不像我在寻找的东西，更具体地说，结果行的顺序。我不知道如何以正确的方式进行更改。 df示例: test_df = pd.DataFrame({'name':['name_1
pandas - Pandas 中的分组召回
我有一个数据框，如下所示。 Category Actual Predicted 1 1 1 1 0
pandas - 计算从日期时间列到特定日期的天数 - pandas
我有一个 df，如下所示。 df: ID open_date limit 1 2020-06-03 100 1 2020-06-23 500
pandas - 删除不等于唯一项目值的行 - Pandas
我有一个 df ，其中包含与唯一值关联的各种字符串。对于这些唯一值，我想删除不等于单独列表的行，最后一行除外。下面使用 Label 中的各种字符串值与 Item 相关联.所以对于每个唯一的 Item
pandas - Pandas 按索引删除列会删除所有具有相同名称的列
考虑以下具有相同名称的列的数据框（显然，这确实发生了，目前我有一个像这样的数据集！:(） >>> df = pd.DataFrame({"a":range(10,15),"b":range(5,10)
pandas - Pandas DF中的重复行
我在 Pandas 中有一个 DF，它看起来像: Letters Numbers A 1 A 3 A 2 A 1 B 1 B 2
pandas - Pandas 两列之间的时差
如何减去两列之间的时间并将其转换为分钟 Date Time Ordered Time Delivered 0 1/11/19 9:25:00 am 10:58:00 am
pandas - pandas 使用哪种方法计算百分位数？
我试图理解 pandas 中的下/上百分位数计算，但有点困惑。这是它的示例代码和输出。 test = pd.Series([7, 15, 36, 39, 40, 41]) test.describe(
pandas - 如何提取多索引数据帧的索引名称，pandas
我有一个多索引数据框，如下所示: TQ bought HT Detailed Instru
pandas - Pandas :根据字符串计数创建直方图
我需要从包含值“低”，“中”或“高”的数据框列创建直方图。当我尝试执行通常的df.column.hist（）时，出现以下错误。 ex3.Severity.value_counts() Out[85]:
pandas - Pandas 中的子字符串列基于另一列
我试图根据另一列的长度对一列进行子串，但结果集是 NaN .我究竟做错了什么？ import pandas as pd df = pd.DataFrame([['abcdefghi','xyz'],

首页

博学

6Ren·AI

商城

python - `pandas.DataFrame.apply` 逐行操作