gpt4 book ai didi

python - 在Spark Cluster模式下使用 Pandas 读取数据时出现异常行为

转载 作者:太空宇宙 更新时间:2023-11-03 20:03:25 24 4
gpt4 key购买 nike

我的数据集位于Google Cloud Platform中。我正在使用pandas(新版本)来读取数据。
数据集的范围从2016-01-01(最小日期)到2019-11-31(最大日期)。我通过Spark Cluster模式提交了工作,并尝试从数据集中获取最大和最小日期。在第一轮中,我获得了不同的最高日期。预期是2019-11-31,但我得到了2018-12-31,但是下次运行时,我得到了预期的结果。这每天都在发生。我的第一轮跑步没有给出预期的输出,但是我的第二轮却给出了预期的输出。使用熊猫从Google Cloud Platform读取数据时是否会产生火花簇问题?
以下是在客户端模式下工作但在群集模式下工作异常的代码。

import pandas as pd
df = pd.read_csv("gs://location.csv")
print('min date')
print(min(df.date)) # expected : 2016-01-01
print('max date')
print(max(df.date)) # expected : 2019-11-31

最佳答案

您能否在没有熊猫的情况下查询相同的数据?仅与BQ库一起使用。这将有助于我们缩小问题的范围。

(这本来是评论,但我还不能评论)

关于python - 在Spark Cluster模式下使用 Pandas 读取数据时出现异常行为,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59105838/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com