gpt4 book ai didi

pandas - 对 UserWarning : pyarrow. open_stream 的任何修复均已弃用,请使用 pyarrow.ipc.open_stream?

转载 作者:行者123 更新时间:2023-12-02 06:41:21 24 4
gpt4 key购买 nike

在使用 pyarrow 函数将 Spark df 转换为 pandas df 时,我收到以下警告:

UserWarning: pyarrow.open_stream is deprecated, please use pyarrow.ipc.open_stream

我使用的是python 3.7版本和Pyspark 2.4.3pyspark df大小为170000行和40列在使用 Pyarrow 函数将其转换为 pandas 时,尽管获得了完整的数据,但我仅获得 61585 行和 40 列作为输出。

train_set.count()
170000

spark.conf.set("spark.sql.execution.arrow.enabled", "True")
result_pdf = train_set.select("*").toPandas()

> C:\anaconda\lib\site-packages\pyarrow\__init__.py:152: UserWarning:
> pyarrow.open_stream is deprecated, please use pyarrow.ipc.open_stream
> warnings.warn("pyarrow.open_stream is deprecated, please use "


result_pdf.shape
(61585, 40)

预期:

result_pdf.shape
(170000,40)

实际:

result_pdf.shape
(61585,40)

最佳答案

最后我找到了上述查询的解决方案。这是一个数据类型问题。在我的一篇专栏中,我在 Spark 中处理时生成概率,输出为 4.333333,万一概率为 4.3,四舍五入后也不起作用,因为在转换自身时,它没有存储上一列的所有行。由于 Spark 使用 Java 处理它,因此 Java 允许处理预定义长度的浮点和字符串变量。上面的柱子也是交叉的。因此,它以错误的形式存储 df 和某些行。当我尝试在 pandas 中进行转换时删除此列时,它会快速转换所有行。

关于pandas - 对 UserWarning : pyarrow. open_stream 的任何修复均已弃用,请使用 pyarrow.ipc.open_stream?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56683286/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com