gpt4 book ai didi

Dask read_json 元数据不匹配

转载 作者:行者123 更新时间:2023-12-01 09:54:57 25 4
gpt4 key购买 nike

我正在尝试将 json 文件加载到 dask df 中。

files = glob.glob('**/*.json', recursive=True)
df = dd.read_json(files, lines = False)

数据中有一些缺失值,一些文件有额外的列。有没有办法指定一个列列表,所以所有可能的列都将存在于串联的 dask df 中?另外,它不能处理缺失值吗?尝试计算 df 时出现以下错误:

ValueError: Metadata mismatch found in `from_delayed`.

Partition type: `DataFrame`
+-----------------+-------+----------+
| Column | Found | Expected |
+-----------------+-------+----------+
| x22 | - | float64 |
| x21 | - | object |
| x20 | - | float64 |
| x19 | - | float64 |
| x18 | - | object |
| x17 | - | float64 |
| x16 | - | object |
| x15 | - | object |
| x14 | - | object |
| x13 | - | object |
| x12 | - | object |
| x11 | - | object |
| x10 | - | object |
| x9 | - | float64 |
| x8 | - | object |
| x7 | - | object |
| x6 | - | object |
| x5 | - | int64 |
| x4 | - | object |
| x3 | - | float64 |
| x2 | - | object |
| x1 | - | object |
+-----------------+-------+----------+

最佳答案

read_json() 是新的,并针对同质数据的“常见”情况进行了测试。它可以像 read_csv 一样,被扩展以相当容易地处理列选择和数据类型强制转换。我注意到 pandas function允许传递 dtype= 参数。

这不是答案,但也许您有兴趣在 repo 提交 PR ?具体代码在文件 dask.dataframe.io.json 中。 .

关于Dask read_json 元数据不匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50928544/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com