gpt4 book ai didi

freebase - 提取Freebase的子集数据以加快开发迭代速度

转载 作者:行者123 更新时间:2023-12-04 03:11:51 26 4
gpt4 key购买 nike

我已经下载了250G的freebase数据转储。我不想迭代我在大数据上的开发。我想提取一小部分数据(可能是一个小域或大约10个个性及其信息)。这个小的子集将使我的迭代更快,更轻松。

划分Freebase数据的最佳方法是什么?
Google/Freebase是否提供任何子集下载?

最佳答案

这是我们从使用数据转储的许多人那里得到的反馈。我们正在研究如何最好地创建此类子集。一种方法是获取单个域(如电影)的所有数据。

这是从/film域中获取每个RDF三元组的方法:

zgrep '\s<http://rdf\.freebase\.com/ns/film.' freebase-rdf-{date}.gz | gzip > freebase-films.gz

棘手的部分是,该子集将不包含您最可能想要的名称,图像或描述。因此,您需要获取以下内容:
zgrep '\s<http://rdf\.freebase\.com/ns/(type\.object|common\.topic)' freebase-rdf-{date}.gz | gzip > freebase-topics.gz

然后,您可能需要过滤该子集,使其仅过滤有关电影的主题数据(仅匹配以相同的/m ID开头的三元组),然后将其连接到电影子集。

用正则表达式编写脚本非常简单,但是工作量远远超过了应该做的事情。我们正在努力寻找更好的长期解决方案。

关于freebase - 提取Freebase的子集数据以加快开发迭代速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20446600/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com