gpt4 book ai didi

python - 将 17GB JSON 文件转换为 numpy 数组

转载 作者:可可西里 更新时间:2023-11-01 15:03:54 34 4
gpt4 key购买 nike

我在 hdfs 中放置了一个 17 GB 的大 JSON 文件。我需要读取该文件并将其转换为 nummy 数组,然后将其传递给 K-Means 聚类算法。我尝试了很多方法,但系统速度变慢并出现内存错误或内核死机。

JSON structure

我试过的代码是

from hdfs3 import HDFileSystem
import pandas as pd
import numpy as nm
import json
hdfs = HDFileSystem(host='hostname', port=8020)
with hdfs.open('/user/iot_all_valid.json/') as f:
for line in f:
data = json.loads(line)
df = pd.DataFrame(data)
dataset= nm.array(df)

我试过使用 ijson,但仍然不确定哪种方法更快速。

最佳答案

我会远离 numpy 和 Pandas,因为在这两种情况下你都会遇到内存问题。我宁愿坚持 SFramethe Blaze ecosystem ,专为处理此类“大数据”案例而设计。神奇的工具!

关于python - 将 17GB JSON 文件转换为 numpy 数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47919423/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com