作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在使用 pyarrow 函数将 Spark df 转换为 pandas df 时,我收到以下警告:
UserWarning: pyarrow.open_stream is deprecated, please use pyarrow.ipc.open_stream
我使用的是python 3.7版本和Pyspark 2.4.3pyspark df大小为170000行和40列在使用 Pyarrow 函数将其转换为 pandas 时,尽管获得了完整的数据,但我仅获得 61585 行和 40 列作为输出。
train_set.count()
170000
spark.conf.set("spark.sql.execution.arrow.enabled", "True")
result_pdf = train_set.select("*").toPandas()
> C:\anaconda\lib\site-packages\pyarrow\__init__.py:152: UserWarning:
> pyarrow.open_stream is deprecated, please use pyarrow.ipc.open_stream
> warnings.warn("pyarrow.open_stream is deprecated, please use "
result_pdf.shape
(61585, 40)
预期:
result_pdf.shape
(170000,40)
实际:
result_pdf.shape
(61585,40)
最佳答案
最后我找到了上述查询的解决方案。这是一个数据类型问题。在我的一篇专栏中,我在 Spark 中处理时生成概率,输出为 4.333333,万一概率为 4.3,四舍五入后也不起作用,因为在转换自身时,它没有存储上一列的所有行。由于 Spark 使用 Java 处理它,因此 Java 允许处理预定义长度的浮点和字符串变量。上面的柱子也是交叉的。因此,它以错误的形式存储 df 和某些行。当我尝试在 pandas 中进行转换时删除此列时,它会快速转换所有行。
关于pandas - 对 UserWarning : pyarrow. open_stream 的任何修复均已弃用,请使用 pyarrow.ipc.open_stream?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56683286/
我是一名优秀的程序员,十分优秀!