gpt4 book ai didi

python - PySpark:执行联合时列数据类型发生变化

转载 作者:行者123 更新时间:2023-12-02 03:34:37 26 4
gpt4 key购买 nike

<分区>

我将三个数据帧存储在列表 data_multi 中。这些数据帧中的每一个都具有相同的列名和相同的数据类型

>>> set(data_multi[0].columns) == set(data_multi[1].columns)  == set(data_multi[2].columns)
True

dtypes(只显示一列)

>>> data_multi[0].select('aml_id_key_12739').dtypes
[('aml_id_key_12739', 'bigint')]

>>> data_multi[1].select('aml_id_key_12739').dtypes
[('aml_id_key_12739', 'bigint')]

>>> data_multi[2].select('aml_id_key_12739').dtypes
[('aml_id_key_12739', 'bigint')]

我复制了一个关于 SO 的帖子中提到的函数,它联合(rbinds)所有数据帧

def unionAll(*dfs):
return reduce(DataFrame.unionAll, dfs)

使用它,我将三个数据帧联合起来得到一个data_single = unionAll(*ddata_multi)

这是我面临的问题。每个数据帧中的 aml_id_key_12739 列是一个 'bigint' 但在并集之后它立即变成了一个 'double'

>>> pprint(data_single.select('aml_id_key_12739').dtypes)
[('aml_id_key_12739', 'double')]

因此,我的整个 id 列都乱七八糟。我忽略了什么?

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com