gpt4 book ai didi

json - 如何使用 Boto3 从 Amazon S3 读取大型 JSON 文件

转载 作者:行者123 更新时间:2023-12-05 08:41:12 26 4
gpt4 key购买 nike

我正在尝试从 Amazon S3 读取一个 JSON 文件,它的文件大小约为 2GB。当我使用方法 .read() 时,它会给我 MemoryError

这个问题有什么解决办法吗?任何帮助都可以,非常感谢!

最佳答案

因此,我找到了一种对我有效的方法。我有 1.60 GB 的文件,需要加载以进行处理。

s3 = boto3.client('s3', aws_access_key_id=<aws_access_key_id>, aws_secret_access_key=<aws_secret_access_key>)

# Now we collected data in the form of bytes array.
data_in_bytes = s3.Object(bucket_name, filename).get()['Body'].read()

#Decode it in 'utf-8' format
decoded_data = data_in_bytes.decode('utf-8')

#I used io module for creating a StringIO object.
stringio_data = io.StringIO(decoded_data)

#Now just read the StringIO obj line by line.
data = stringio_data.readlines()

#Its time to use json module now.
json_data = list(map(json.loads, data))

所以json_data就是文件的内容。我知道有很多变量操作,但它对我有用。

关于json - 如何使用 Boto3 从 Amazon S3 读取大型 JSON 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51623833/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com