gpt4 book ai didi

python - 错误 - 来自工作人员的错误没有这样的文件或目录 : 'filepath'

转载 作者:太空宇宙 更新时间:2023-11-04 05:06:14 26 4
gpt4 key购买 nike

我的本​​地有一个示例数据集,我正尝试在集群上执行一些基本操作。

    import dask.dataframe as ddf
from dask.distributed import Client
client = Client('Ip address of the scheduler')
import dask.dataframe as ddf
csvdata = ddf.read_csv('Path to the CSV file')

客户端连接到调度程序,调度程序又连接到两个工作程序(在其他机器上)。

我的问题可能很琐碎。

  1. 此 csv 文件是否应该出现在其他工作节点上?

    我似乎遇到找不到文件的错误。

  2. 使用,

    futures=client.scatter(csvdata)
    x = ddf.from_delayed([future], meta=df)
    #Price is a column in the data
    df.Price.sum().compute(get=client.get) #returns" dd.Scalar<series-..., dtype=float64>" How do I access it?
    client.submit(sum, x.Price) #returns "distributed.utils - ERROR - 6dc5a9f58c30954f77913aa43c792cc8"

此外,我确实提到了这个 Loading local file from client onto dask distributed clusterhttp://distributed.readthedocs.io/en/latest/manage-computation.html

我想我在这里混淆了很多东西,我的理解很困惑。非常感谢任何帮助。

最佳答案

是的,这里 dask.dataframe 假设您在客户端代码中引用的文件也可以被您的工作人员访问。如果不是这种情况,那么您将让您在本地机器上明确读取数据并将其分散给您的工作人员。

看起来您正在尝试执行此操作,只是您分散的是 dask 数据帧而不是 pandas 数据帧。在分散数据之前,您实际上必须从磁盘具体加载 Pandas 数据。如果你的数据适合内存那么你应该能够做你现在正在做的事情,但是用 pd.read_csv 替换 dd.read_csv 调用

csvdata = pandas.read_csv('Path to the CSV file')
[future] = client.scatter([csvdata])
x = ddf.from_delayed([future], meta=df).repartition(npartitions=10).persist()
#Price is a column in the data
df.Price.sum().compute(get=client.get) # Should return an integer

如果您的数据太大,那么您可以考虑在本地使用 dask 逐条读取数据并将数据分散到您的集群。

import dask.dataframe as dd
ddf = dd.read_csv('filename')
futures = ddf.map_partitions(lambda part: c.scatter([part])[0]).compute(get=dask.get) # single threaded local scheduler

ddf = dd.from_delayed(list(futures), meta=ddf.meta)

关于python - 错误 - 来自工作人员的错误没有这样的文件或目录 : 'filepath' ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44414544/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com