gpt4 book ai didi

Python:在大型 jsonl 文件中查找重复项

转载 作者:太空宇宙 更新时间:2023-11-03 20:18:03 27 4
gpt4 key购买 nike

我正在尝试在 jsonl 文件中查找包含相同标识符值的所有 json 对象。

如果我的数据如下:

{
"data": {
"value": 42,
"url": "url.com",
"details": {
"timestamp": "07:32:29",
"identifier": "123ABC"
}
},
"message": "string"
}

我想找到具有相同标识符值的每个对象。该文件太大,无法一次加载全部内容,因此我逐行检查并仅存储标识符值。这样做的缺点是缺少第一个具有该标识符的对象(即,如果对象 A、B 和 C 都具有相同的标识符,那么我最终只会保存 B 和 C)。为了找到该标识符的第一次出现,我尝试再次读取该文件,以仅在第一次找到每个重复标识符时选取该文件。这是我遇到一些问题的地方。

这部分按预期工作:

import gzip
import json_lines
import jsonlines
from itertools import groupby

identifiers=set()
duplicates=[]

with json_lines.open('file.jsonlines.gz') as f:
for item in f:
ID = item["data"]["details"]["identifier"]
if ID in identifiers:
duplicates.append(item)
else:
identifiers.add(ID)

dup_IDs={dup["data"]["details"]["identifier"] for dup in duplicates}

但是当我第二次阅读该文件时:

with json_lines.open('file.jsonlines.gz') as f:
for item in f:
ID = item["data"]["details"]["identifier"]
if ID in dup_IDs:
duplicates.append(item)
dup_IDs.remove(ID)
else:
continue

if len(dup_IDs)==0:
break
else:
continue

它运行了大约 30 分钟,最终导致我的计算机崩溃。我假设(希望)这是因为我的代码有问题,而不是我的计算机有问题,因为代码更容易修复。

最佳答案

如果文件太大,我建议将数据上传到SQL数据库并使用SQL查询来过滤您需要的内容。

关于Python:在大型 jsonl 文件中查找重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58329062/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com