python - PySpark:执行联合时列数据类型发生变化-6ren

python - PySpark:执行联合时列数据类型发生变化

转载作者：行者123 更新时间：2023-12-02 03:34:37

<分区>

我将三个数据帧存储在列表 data_multi 中。这些数据帧中的每一个都具有相同的列名和相同的数据类型

列

>>> set(data_multi[0].columns) == set(data_multi[1].columns)  == set(data_multi[2].columns)
True

dtypes(只显示一列)

>>> data_multi[0].select('aml_id_key_12739').dtypes
[('aml_id_key_12739', 'bigint')]

>>> data_multi[1].select('aml_id_key_12739').dtypes
[('aml_id_key_12739', 'bigint')]

>>> data_multi[2].select('aml_id_key_12739').dtypes
[('aml_id_key_12739', 'bigint')]

我复制了一个关于 SO 的帖子中提到的函数，它联合(rbinds)所有数据帧

def unionAll(*dfs):
    return reduce(DataFrame.unionAll, dfs)

使用它，我将三个数据帧联合起来得到一个data_single = unionAll(*ddata_multi)

这是我面临的问题。每个数据帧中的 aml_id_key_12739 列是一个 'bigint' 但在并集之后它立即变成了一个 'double'

>>> pprint(data_single.select('aml_id_key_12739').dtypes)
[('aml_id_key_12739', 'double')]

因此，我的整个 id 列都乱七八糟。我忽略了什么？

文章推荐： stata - 多次保存数据

文章推荐： azure - 如何将文件从逻辑应用程序发送到功能应用程序？

文章推荐： ansible - Ansible/jinja2 YAML 文件中的 ":&"是什么意思？

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - PySpark:执行联合时列数据类型发生变化