Python - 带有元组的 Pandas 数据框-6ren

Python - 带有元组的 Pandas 数据框

转载作者：太空宇宙更新时间：2023-11-03 13:35:08

25

4

我有这种数据框:

      A       B       C       D
0   (a,b)   (c,d)   (e,f)   (g,h)
1   (a,b)   (c,d)   (e,f)    NaN
2   (a,b)    NaN    (e,f)    NaN
3   (a,b)    NaN     NaN     NaN

所以在每个单元格中都有一个元组，我想把它变成这样:

  |    A     |     B     |     C     |     D
0 |  a |  b  |  c  |  d  |  e  |  f  |  g  |  h
1 |  a |  b  |  c  |  d  |  e  |  f  | NaN | NaN
2 |  a |  b  | NaN | NaN |  e  |  f  | NaN | NaN
3 |  a |  b  | NaN | NaN | NaN | NaN | NaN | NaN

例如，在 A 列中，其中有两列。

谢谢。

最佳答案

您可以使用 stack与 DataFrame.from_records然后用 unstack reshape , swaplevel对于 MultiIndex 列中的更改级别和最后排序列 sort_index :

stacked = df.stack()
df1 = pd.DataFrame.from_records(stacked.tolist(), index = stacked.index)
        .unstack(1)
        .swaplevel(0, 1, 1)
        .sort_index(axis=1)
        .replace({None:np.nan})
print (df1)

   A       B         C         D     
   0  1    0    1    0    1    0    1
0  a  b    c    d    e    f    g    h
1  a  b    c    d    e    f  NaN  NaN
2  a  b  NaN  NaN    e    f  NaN  NaN
3  a  b  NaN  NaN  NaN  NaN  NaN  NaN

最后可以从列中删除 MultiIndex 并创建新的列名:

stacked = df.stack()
df1 = pd.DataFrame.from_records(stacked.tolist(), index = stacked.index)
        .unstack(1)
        .swaplevel(0, 1, 1)
        .sort_index(1)
        .replace({None:np.nan})
df1.columns = ['{}{}'.format(col[0], col[1]) for col in df1.columns]
print (df1)
  A0 A1   B0   B1   C0   C1   D0   D1
0  a  b    c    d    e    f    g    h
1  a  b    c    d    e    f  NaN  NaN
2  a  b  NaN  NaN    e    f  NaN  NaN
3  a  b  NaN  NaN  NaN  NaN  NaN  NaN

时间:

#len (df)=400

In [220]: %timeit (pir(df))
100 loops, best of 3: 3.45 ms per loop

In [221]: %timeit (jez(df))
100 loops, best of 3: 5.17 ms per loop

In [222]: %timeit (nick(df))
1 loop, best of 3: 231 ms per loop

In [223]: %timeit (df.stack().apply(pd.Series).unstack().swaplevel(0, 1, 1).sort_index(1).replace({None:np.nan}))
10 loops, best of 3: 152 ms per loop


#len (df)=4k

In [216]: %timeit (pir(df))
100 loops, best of 3: 16.5 ms per loop

In [217]: %timeit (jez(df))
100 loops, best of 3: 14.8 ms per loop

In [218]: %timeit (nick(df))
1 loop, best of 3: 2.34 s per loop

In [219]: %timeit (df.stack().apply(pd.Series).unstack().swaplevel(0, 1, 1).sort_index(1).replace({None:np.nan}))
1 loop, best of 3: 1.53 s per loop

计时代码:

df = pd.DataFrame({"A": [('a','b'),('a','b'),('a','b'),('a','b')], 
                   'B': [('c','d'),('c','d'), np.nan,np.nan], 
                   'C':[('e','f'),('e','f'),('e','f'),np.nan],
                   'D':[('g','h'),np.nan,np.nan,np.nan]})

df = pd.concat([df]*1000).reset_index(drop=True)
print (df)

def jez(df):
    stacked = df.stack()
    return pd.DataFrame.from_records(stacked.tolist(), index = stacked.index).unstack(1).swaplevel(0, 1, 1).sort_index(1).replace({None:np.nan})


print (df.stack().apply(pd.Series).unstack().swaplevel(0, 1, 1).sort_index(1).replace({None:np.nan}))

def nick(df):
    cols = df.columns.values.tolist()
    return pd.concat([df[col].apply(pd.Series) for col in cols], axis=1, keys=cols)

def pir(df):
    # fillna with (np.nan, np.nan)
    df_ = df.stack().unstack(fill_value=tuple([np.nan] * 2))
    # construct MultiIndex
    col = pd.MultiIndex.from_product([df.columns, [0, 1]])
    # rip off of Nickil's pd.concat but using numpy
    return pd.DataFrame(np.hstack([np.array(s.values.tolist()) for _, s in df_.iteritems()]), columns=col)


print (jez(df))
print (nick(df))
print (pir(df))

关于Python - 带有元组的 Pandas 数据框，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41138232/

25

4

0

文章推荐： python-2.7 - 嵌入 SSL 证书

文章推荐：不使用内置类型和运算符的 Python 复数除法

文章推荐： python - Numpy:在每行上查找元素的列索引

python - 使用列表/元组/等。从键入与直接将类型引用为列表/元组/等
typing模块中使用List、Tuple等有什么区别: from typing import Tuple def f(points: Tuple): return map(do_stuff,
python - 迭代每个 N 元素，放入一个元素(元组)，然后每个 N 元素，放入另一个元素(元组)
如何遍历列表的每 5 个元素并将它们组成一个元组，然后将同一列表的第 6 个元素作为第二个元组 - 然后对接下来的 5 个元素和第 6 个元素执行相同的操作。我读过 operator.itemget
Scala groupby 元组
我有一个 Seq[((元组 A),(元组 B))] 有没有一种简单的方法来对元组 A 进行分组，以便我得到 Seq[(Tuple A, Seq[Tuple B])] 我试过 groupby(x =>
scala - 内存中相同值的列表/元组
如果我有以下内容 val A = List(1,2,3) val B = List(1,2,3) 这两个变量是否有相同的内存地址？最佳答案它们不会有相同的内存地址，可以使用 eq 方法确认，com
arrays - 元组/数组对列表
我实际上是在尝试创建一个配对列表，但事实证明这非常困难在有人提到 Hashtables 之前请注意，会有我不关心的重复项。例如，如果我这样做 $b = @{"dog" = "cat"} 我明白了
要通过删除空对象进行映射的 Terraform 元组？
我正在尝试为其他资源中的 for_each 循环创建局部变量，但无法按预期制作局部映射。以下是我试过的。 (地形 0.12) 预期映射到循环 temple_list = { "test2-role"
Haskell 列表理解顺序元素/元组
我目前正在学习 Haskell，在 FP 方面我绝对是初学者。现在我正在尝试使用列表推导式进行不同的操作。 listComprehension = [(a,b,c) | a <- xs, b <
要通过删除空对象进行映射的 Terraform 元组？
我正在尝试为其他资源中的 for_each 循环创建局部变量，但无法按预期制作局部映射。以下是我试过的。 (地形 0.12) 预期映射到循环 temple_list = { "test2-role"
Java 元组/对
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve th
python - “元组”对象不可调用
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
list - 过滤我自己类型的列表 - 元组？
如何通过元组中的第三项过滤此类型的列表: type Car = (String, [String], Int [String]) 我看到了 snd和 fst方法，但在这里我认为这行不通，我不确定如何在
无需创建多个类型参数的 Java 元组
有没有办法创建 Tuple 在 Java 中，无需创建多个类？例如，可以为每种不同类型的元组创建不同的类，每个类具有不同数量的 Type Parameters : public class Sing
c++ - 将类型转换扩展到可转换类型的对/元组
我必须处理一堆二维点类型:pair , pair , pair ，并且只要存在坐标转换，我就允许点之间的隐式转换。像这样: template inline operator pair ( pair t
来自并行文件的 Python 元组
这个问题在这里已经有了答案: How do I iterate through two lists in parallel? (8 个答案) How do I iterate over the tu
Python 序列(元组)
编写一个函数 square_odd_terms 接受一个元组作为参数并返回一个元组中奇数项的平方的元组。即使是条款也将保持不变。我的尝试是: def square_odd_termms(tpl):
Python - 元组 - 检索元组列表中的唯一元素
更新: 我选择了这个: set(item[1] for item in id) 谢谢你们，你们的想法对我有帮助。我正在处理一个元组列表: 以下面这行代码为例。我的 list 可以是任何长度。但是，我
python - 从两个不同大小的列表创建一个列表(元组？)
我一直在尝试执行此任务，在尝试时我不禁想到会有比我一直尝试的方式更好的编码方式。我有一行文字和一个关键字。我想在每个列表中的每个字符下创建一个新列表。关键字将重复自身直到列表末尾。如果有任何非字母字
python - “元组”不可调用错误
我现在这个问题已经被问过好几次了。但是，答案似乎并没有解决我的问题。我收到类型错误，“元组”对象不可调用。即使列表中的元组以正确的方式用逗号分隔，我也得到了这个: def aiMove(b):
swift - Swift 元组
嘿，所以我花了两个多小时试图解决这个问题，但我就是做不对。我猜我犯了一个非常简单的错误，所以如果有人能指出我正确的方向，我将非常感激，谢谢!顺便说一句，这是一门树屋类(class)。 “目前我们的问候
c++ - 元组 - 单独标题的原因
这不是一个严格的编程问题，但为什么是tuple在单独的 header 中定义，而不是添加到连同 pair ？它看起来更自然，不那么困惑等。最佳答案在具有细粒度的 header 和只有一个 hea

首页

博学

6Ren·AI

商城

Python - 带有元组的 Pandas 数据框