gpt4 book ai didi

dataframe - 如何将列表列表转换为具有类型为 list[struct[n]] 的列的极坐标数据框?

转载 作者:行者123 更新时间:2023-12-03 07:49:51 26 4
gpt4 key购买 nike

我有一个列表列表。每个单独的列表可以具有不同的长度。列表中的每个元素都是元组。

list1 = [("a", 1), ("b", 2)]
list2 = [("c", 3), ("d", 4), ("e", 5)]

我想将它们全部合并到一个类型为 list[struct[2]] 的单个极坐标数据帧列中。

在打印数据框时我应该看到:

    column_name

list[struct[2]]

[{"a",1}, {"b",2}]
[{"c",3}, {"d",4}, {"e",5}]

我所做的就是使用下面的代码获取一列 struct[2]

    list1 = ["a", "b", "c"]
list2 = [1, 2, 3]

df = pl.DataFrame({
"col1": list1,
"col2": list2
})

print (df)
dfs = df.select(pl.struct(pl.all()).alias("my_struct"))
print(dfs)

但这离我想要实现的目标还很远

已解决:我使用以下代码解决了这个问题。看起来在 Polars struct 中与普通 Python 中的 dict 具有相同的含义。

list1 = [("a", 1), ("b", 2)]
list2 = [("c", 3), ("d", 4), ("e", 5)]
list_of_lists = [list1, list2]
lofl_as_structs = [[dict(f1=pair[0], f2=pair[1]) for pair in lst] for lst in list_of_lists]
df = pl.DataFrame({"column_name": lofl_as_structs})
print(df)

结果:

shape: (2, 1)
┌─────────────────────────────┐
│ column_name │
│ --- │
│ list[struct[2]] │
╞═════════════════════════════╡
│ [{"a",1}, {"b",2}] │
│ [{"c",3}, {"d",4}, {"e",5}] │
└─────────────────────────────┘

其他问题:

我希望能够通过指定架构来稍微不同地执行上述操作,如下所示:

df = pl.DataFrame(lofl_as_structs,schema={'column_name': pl.List(pl.Struct([pl.Field('f1', pl.Utf8), pl.Field('f2', pl.Int64)]))})

这给出了错误:

    raise ShapeError("the row data does not match the number of columns")
polars.exceptions.ShapeError: the row data does not match the number of columns

有关在架构中更改哪些内容以消除此错误的任何线索。

最佳答案

Polars 中的每一列都有一个架构(“类型”)。

如果我们以{"a": 1}, {"b": 2}为例:

df = pl.select(pl.concat_list(pl.struct(a=1), pl.struct(b=2)))
shape: (1, 1)
┌──────────────────────┐
│ a │
│ --- │
│ list[struct[2]] │
╞══════════════════════╡
│ [{1,null}, {null,2}] │ # [{"a": 1, b: None}, {"a": None: b: 2}]
└──────────────────────┘

Polars 确定架构为:[ {"a": int, "b": int } ]

>>> df.schema
OrderedDict([('a', List(Struct([Field('a', Int32), Field('b', Int32)])))])

这基本上意味着:列中的每个结构都必须具有相同的字段名称。 (按键)

如果我们获取您的起始列表:abcde 都是键。

list1 = [("a", 1), ("b", 2)]
list2 = [("c", 3), ("d", 4), ("e", 5)]
>>> dict(list1)
{'a': 1, 'b': 2}
>>> dict(list2)
{'c': 3, 'd': 4, 'e': 5}

如果您想要所显示的结构,那么您实际上是在说您想要这个:

list1 = [{"key": "a", "value": 1}, {"key": "b", "value": 2}]
list2 = [{"key": "c", "value": 3}, {"key": "d", "value": 4}, {"key": "e", "value": 5}]

即您的起始必须成为实际

关于dataframe - 如何将列表列表转换为具有类型为 list[struct[n]] 的列的极坐标数据框?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/77504583/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com