gpt4 book ai didi

python - 如何从 url 列表创建 Dask DataFrame?

转载 作者:太空宇宙 更新时间:2023-11-03 13:11:13 25 4
gpt4 key购买 nike

我有一个 URL 列表,我很乐意将它们读入 dask 数据框一次,但看起来 read_csv 不能为 http 使用星号。有什么办法可以实现吗?

这是一个例子:

link = 'http://web.mta.info/developers/'

data = [ 'data/nyct/turnstile/turnstile_170128.txt',
'data/nyct/turnstile/turnstile_170121.txt',
'data/nyct/turnstile/turnstile_170114.txt',
'data/nyct/turnstile/turnstile_170107.txt'
]

我想要的是

df = dd.read_csv('XXXX*X')

最佳答案

尝试使用 dask.delayed将您的每个网址变成一个懒惰的 Pandas 数据框,然后使用 dask.dataframe.from_delayed将那些懒惰的值变成一个完整的 dask 数据框

import pandas as pd
import dask
import dask.dataframe as dd

dfs = [dask.delayed(pd.read_csv)(url) for url in urls]

df = dd.from_delayed(dfs)

这将立即读取一个您的链接,以便找出元数据(列、数据类型)。如果您提前知道这些数据类型和链接,则可以通过将示例空数据帧传递给 dd.from_delayed(..., meta=sample_df)

来避免这种情况

另请参阅:http://dask.pydata.org/en/latest/delayed-collections.html

关于python - 如何从 url 列表创建 Dask DataFrame?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43104302/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com