gpt4 book ai didi

python - 如何使用 Python 解析 WIkidata JSON (.bz2) 文件?

转载 作者:太空宇宙 更新时间:2023-11-04 09:50:17 24 4
gpt4 key购买 nike

我想使用维基数据查看实体和关系。我下载了 Wikidata JSON 转储(from here .bz2 文件,大小约为 18 GB)。

但是,我无法打开该文件,它对我的​​电脑来说太大了。

有没有办法在不提取完整 .bz2 的情况下查看文件 文件。特别是使用 Python,我知道有一个 PHP 转储 阅读器 ( here ),但我不能使用它。

最佳答案

我想出了一个策略,允许在不打开文件的情况下使用 json 模块访问信息:

import bz2
import json

with bz2.open(filename, "rt") as bzinput:
lines = []
for i, line in enumerate(bzinput):
if i == 10: break
tweets = json.loads(line)
lines.append(tweets)

这样,lines 将成为您可以轻松操作的字典列表,例如,通过删除不需要的键来减小它们的大小。

还要注意(显然)条件 i==10 可以任意更改以适应任何人(?)的需要。例如,您可以一次解析一些行,分析它们并在 txt 文件上写入您真正想要从原始文件中获取的行的索引。只读取这些行就足够了(在 for 循环中使用 i 中的类似条件)。

关于python - 如何使用 Python 解析 WIkidata JSON (.bz2) 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48078567/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com