作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有相当大的(~200Gb,~20M 行)原始 jsonl 数据集。我需要从那里提取重要的属性并将中间数据集存储在 csv 中,以便进一步转换为 HDF5、parquet 等。显然,我不能使用 JSONDataSet 来加载原始数据集,因为它使用pandas.read_json
在幕后,使用 pandas 来处理如此大小的数据集听起来是个坏主意。因此,我正在考虑逐行读取原始数据集,逐行处理并将处理后的数据附加到中间数据集。
我不明白的是如何使其与 AbstractDataSet
及其 _load
和 _save
方法兼容。
附注我知道我可以将其移出 kedro 的上下文,并将预处理数据集作为原始数据集引入,但这有点破坏了完整管道的整个概念。
最佳答案
尝试使用 pyspark 来利用延迟计算和批量执行。SparkDataSet在kedro.contib.io.spark_data_set中实现
jsonl 的示例目录配置:
your_dataset_name:
type: kedro.contrib.io.pyspark.SparkDataSet
filepath: "\file_path"
file_format: json
load_args:
multiline: True
关于python - 如何在kedro中处理海量数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60329363/
我是一名优秀的程序员,十分优秀!