gpt4 book ai didi

apache-spark - UserWarning : pyarrow. open_stream 已弃用,请使用 pyarrow.ipc.open_stream 警告

转载 作者:行者123 更新时间:2023-12-01 23:30:47 24 4
gpt4 key购买 nike

我正在通过 pyspark 在本地运行 spark 2.4.2,用于 NLP 中的 ML 项目。 Pipeline 中的部分预处理步骤涉及使用通过 pyarrow 优化的 pandas_udf 函数。每次我使用预处理的 Spark 数据框进行操作时,都会出现以下警告:

UserWarning: pyarrow.open_stream is deprecated, please use pyarrow.ipc.open_stream warnings.warn("pyarrow.open_stream is deprecated, please use "

我尝试更新 pyarrow 但未能避免警告。我的 pyarrow 版本是 0.14。我想知道这个警告的含义以及是否有人找到了解决方案?预先非常感谢您。

Spark session 详细信息:

conf = SparkConf(). \
setAppName('map'). \
setMaster('local[*]'). \
set('spark.yarn.appMasterEnv.PYSPARK_PYTHON', '~/anaconda3/bin/python'). \
set('spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON', '~/anaconda3/bin/python'). \
set('executor.memory', '8g'). \
set('spark.executor.memoryOverhead', '16g'). \
set('spark.sql.codegen', 'true'). \
set('spark.yarn.executor.memory', '16g'). \
set('yarn.scheduler.minimum-allocation-mb', '500m'). \
set('spark.dynamicAllocation.maxExecutors', '3'). \
set('spark.driver.maxResultSize', '0'). \
set("spark.sql.execution.arrow.enabled", "true"). \
set("spark.debug.maxToStringFields", '100')

spark = SparkSession.builder. \
appName("map"). \
config(conf=conf). \
getOrCreate()

最佳答案

此警告来自您的 pyspark 版本,该版本使用 pyarrow 已弃用的函数。

但是一切正常,所以您现在可以简单地忽略警告,或者更新您的 pyspark 版本(在最新版本中,他们修复了已弃用的 pyarrow 函数的使用)

关于apache-spark - UserWarning : pyarrow. open_stream 已弃用,请使用 pyarrow.ipc.open_stream 警告,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57028570/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com