python - 如何使数据帧列表的长度全部相等-6ren

python - 如何使数据帧列表的长度全部相等

转载作者：行者123 更新时间：2023-11-30 22:45:56

25

4

如果我有许多 DataFrames 位于这样的列表中:

X = pd.DataFrame({"t":[1,2,3,4,5,6,7,8],"A":[34,12,78,84,26,84,26,34], "B":[54,87,35,25,82,35,25,82], "C":[56,78,0,14,13,0,14,13], "D":[0,23,72,56,14,72,56,14], "E":[78,12,31,0,34,31,0,34]})
Y = pd.DataFrame({"t":[1,2,3],"A":[45,24,65], "B":[45,87,65], "C":[98,52,32], "D":[0,23,1], "E":[24,12, 65]})
Z = pd.DataFrame({"t":[1,2,3,4,5],"A":[14,96,25,2,25], "B":[47,7,5,58,34], "C":[85,45,65,53,53], "D":[3,35,12,56,236], "E":[68,10,45,46,85]})

allFiles = [X, Y, Z]
list_ = []
for file_ in allFiles:
    df = file_
    df = df.sort('t')
    list_.append(df)

列表如下所示:

如何将每个数据帧的长度缩短到最短的长度？

编辑。请记住，我想保留带有 df 的列表

最佳答案

您可以使用concat与 dropna如果 DataFrames 中没有 NaN 值:

df = pd.concat(allFiles, keys=list('ABC'), axis=1).dropna()
print (df)
    A                        B                                  C              \
    A   B   C   D   E  t     A     B     C     D     E    t     A     B     C   
0  34  54  56   0  78  1  45.0  45.0  98.0   0.0  24.0  1.0  14.0  47.0  85.0   
1  12  87  78  23  12  2  24.0  87.0  52.0  23.0  12.0  2.0  96.0   7.0  45.0   
2  78  35   0  72  31  3  65.0  65.0  32.0   1.0  65.0  3.0  25.0   5.0  65.0   


      D     E    t  
0   3.0  68.0  1.0  
1  35.0  10.0  2.0  
2  12.0  45.0  3.0

然后通过 groupby 创建新列表使用列表理解:

list_ = [g for i, g in df.groupby(level=0, axis=1, group_keys=False)]
print (list_)
[    A                   
    A   B   C   D   E  t
0  34  54  56   0  78  1
1  12  87  78  23  12  2
2  78  35   0  72  31  3,       B                             
      A     B     C     D     E    t
0  45.0  45.0  98.0   0.0  24.0  1.0
1  24.0  87.0  52.0  23.0  12.0  2.0
2  65.0  65.0  32.0   1.0  65.0  3.0,       C                             
      A     B     C     D     E    t
0  14.0  47.0  85.0   3.0  68.0  1.0
1  96.0   7.0  45.0  35.0  10.0  2.0
2  25.0   5.0  65.0  12.0  45.0  3.0]

但是输出是Multiindex，所以你需要 groupby由 get_value 创建的第一级然后被 droplevel 删除:

df = pd.concat(allFiles, keys=list('ABC'), axis=1).dropna()
lvl = df.columns.get_level_values(0)
df.columns = df.columns.droplevel(0)
print (df)
    A   B   C   D   E  t     A     B     C     D     E    t     A     B     C  \
0  34  54  56   0  78  1  45.0  45.0  98.0   0.0  24.0  1.0  14.0  47.0  85.0   
1  12  87  78  23  12  2  24.0  87.0  52.0  23.0  12.0  2.0  96.0   7.0  45.0   
2  78  35   0  72  31  3  65.0  65.0  32.0   1.0  65.0  3.0  25.0   5.0  65.0   

      D     E    t  
0   3.0  68.0  1.0  
1  35.0  10.0  2.0  
2  12.0  45.0  3.0

list_ = [g for i, g in df.groupby(lvl, axis=1)]

print (list_)

[    A   B   C   D   E  t
0  34  54  56   0  78  1
1  12  87  78  23  12  2
2  78  35   0  72  31  3,       A     B     C     D     E    t
0  45.0  45.0  98.0   0.0  24.0  1.0
1  24.0  87.0  52.0  23.0  12.0  2.0
2  65.0  65.0  32.0   1.0  65.0  3.0,       A     B     C     D     E    t
0  14.0  47.0  85.0   3.0  68.0  1.0
1  96.0   7.0  45.0  35.0  10.0  2.0
2  25.0   5.0  65.0  12.0  45.0  3.0]

print (list_[0])
    A   B   C   D   E  t
0  34  54  56   0  78  1
1  12  87  78  23  12  2
2  78  35   0  72  31  3

另一个更简单的解决方案:

allFiles = [X, Y, Z]

min_len = np.min([len(df.index) for df in allFiles])
print (min_len)
3

print ([df.reindex(np.arange(min_len)) for df in allFiles])
[    A   B   C   D   E  t
0  34  54  56   0  78  1
1  12  87  78  23  12  2
2  78  35   0  72  31  3,     A   B   C   D   E  t
0  45  45  98   0  24  1
1  24  87  52  23  12  2
2  65  65  32   1  65  3,     A   B   C   D   E  t
0  14  47  85   3  68  1
1  96   7  45  35  10  2
2  25   5  65  12  45  3]

编辑1:如果t是具有唯一值的index，则解决方案。

获取最短索引，然后使用reindex在列表理解中:

X = X.set_index('t')
Y = Y.set_index('t')
Z = Z.set_index('t')
allFiles = [X, Y, Z]

min_idx = min([df.index for df in allFiles], key=len)
print (min_idx)
Int64Index([1, 2, 3], dtype='int64', name='t')

print ([df.reindex(min_idx) for df in allFiles])
[    A   B   C   D   E
t                    
1  34  54  56   0  78
2  12  87  78  23  12
3  78  35   0  72  31,     A   B   C   D   E
t                    
1  45  45  98   0  24
2  24  87  52  23  12
3  65  65  32   1  65,     A   B   C   D   E
t                    
1  14  47  85   3  68
2  96   7  45  35  10
3  25   5  65  12  45]

关于python - 如何使数据帧列表的长度全部相等，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41038658/

25

4

0

文章推荐： java - 不同字符串连接到 mysql 的应用程序属性

文章推荐： C# xml 序列化程序 - 无法生成临时类

文章推荐： mysql - 在 OpenFire MySQL 集成中使用带有盐编码的 md5

java - 为什么自动装箱的整数和 .getClass() 值 == 相等，而不仅仅是 .equals() 相等？
也许我在 Java 上工作的时间太长而没有真正理解它的一些基础知识。我确实理解 == 用于对象引用相等，而 .equals() 用于对象值相等。比较整数: Integer x = 1, y = 1
javascript - boolean 相等
我是从一道考试题中得出这个答案的，但无法理解该解决方案的工作原理。如果值“x”和“y”相等，则此函数应该返回“true”，否则返回 False。解决方法: function equal_boolea
Mysql utf8mb4 相等
我将带有表情符号的文本存储在 mysql 数据库中。数据库、表和列设置为使用utf8mb4和utf8mb4_unicode_ci。我可以毫无问题地输入单元格值(数据类型是 VARCHAR)。但是
PHP DateTime 相等
如果两个 DateTime 对象具有相同的日、月和年，我该如何比较？问题是他们有不同的小时/分钟/秒。最佳答案对于 DateTime 对象，没有好的方法可以做到这一点。所以你必须做，比方说，不是那
c# - GetHashCode 相等
我一直想知道这个问题，所以我想我会问的。您将看到的大多数地方都使用相同的语义逻辑来覆盖 Equals 和 GetHashCode 以实现成员平等...但是它们通常使用不同的实现: publi
comparison - CoreGraphics 中的浮点比较(相等)
苹果 CoreGraphics.framework , CGGeometry.h : CG_INLINE bool __CGSizeEqualToSize(CGSize size1, CGSize s
python - 由于最新的python版本保留了dict的插入顺序，相等(==)的含义会改变吗？
在最新的python 版本中， dict 保留了插入的顺序。在平等方面是否有任何变化。例如，目前以下工作。既然广告顺序很重要， future 会不会发生这种变化？我问是因为有根本性的变化 - 以前
django 过滤器两个 ManyToManyField 相等
class VideoUserModel(models.Model): user = models.ManyToManyField(get_user_model()) viewlist
coq - 枚举类型的 COQ 相等
我在 COQ 中有一个有限枚举类型(比如 T)，我想检查元素是否相等。这意味着，我需要一个函数 bool beq_T(x:T,y:T) 我设法定义这样一个函数的唯一方法是逐个分析。这会导致很多匹配语
fortran - 测试 float 相等
我在 Windows 7(32 位)下的 MinGW 中使用 gfortran 来编译 Fortran 代码。这是文件 testequal.f 中包含的最少代码: program test
java - jsp。枚举比较/相等
我有以下 jsp 片段: ${campaign.moderated}
python - 如何测试两个稀疏数组是否(几乎)相等？
我想检查两个稀疏数组是否(几乎)相等。而对于 numpy 数组，你可以这样做: import numpy as np a = np.ones(200) np.testing.assert_array_
c# - 自定义对象的值是否与 List<> 相等
我有以下类(class): public class MyDocuments { public DateTime registeredDate; public
c - for循环中两个 float 相等
这个问题已经有答案了: Is floating point math broken? (33 个回答) 已关闭 5 年前。我在这里想做的是，我采用一个精度值(小于 1)并打印 1/n 类型的所有数字
C 检查字符串的最后一个字符是否与 X 相等
我正在为我的arduino写一个草图，我想检查我的字符串的最后一个字符。例如: 如果输入是 cats- 我想看看最后一个字符(在我的例子中是“-”)实际上是否 - 我使用的代码: 串行事件函数 vo
c# - RuntimeMethodInfo 相等 : bug?
让我们开始: using System; public class Program { class A { public virtual void Do() { }
java - 仅根据某些键将两个 HashMap 相等
我只需要根据几个键(不是全部)来确定两个 HashMap 的相等性除了单独访问每个字段并比较相等性之外，还有其他节省时间的方法吗？最佳答案我能想到的一种方法是在您的 HashMap 上存储某种“
java - 测试是否与 double 相等
在Java中，大写的Double可以为null。但是如果我有 double a 和 b 并且我这样做: if (a.equals(b)) 如果其中之一为空，它会崩溃。有没有更好的方法来比较它们？最
mysql - 使用选择选项从另一个数据库插入并且两个数据库表 ID 相等
我正在尝试从我的旧数据库中插入表格数据。 Id 在数据库表和选择特定列中都相等。这是我的数据库。旧数据库:sch -> 旧表:product (id, tag, url) (13, red, aaa
css - 在容器内拆分两个 div 相等
我正在开发一个应用程序，它在我的主视图中有一个侧边栏和两个 div。我试图在容器内平均分割两者的高度。我试过 height = 50% 但效果不太好。

首页

博学

6Ren·AI

商城

python - 如何使数据帧列表的长度全部相等