gpt4 book ai didi

freebase - 将(部分)Freebase 转储加载到 ArangoDb

转载 作者:行者123 更新时间:2023-12-04 20:40:33 26 4
gpt4 key购买 nike

我的网络搜索没有发现任何有用的东西,也许还没有人这样做过。虽然我已经做了一些处理 freebase dumps 并使用 rdf 和 arangodb,但我的经验仍然非常有限,我想听听关于这个主题的意见/建议/经验。

我想知道的一些事情:

  • 有没有人将 freebase 转储导入 ArangoDb?
  • 有没有工具可以帮助实现这一目标?
  • 手动执行此操作的策略是什么?
  • 或者也许这只是一个坏主意,不应该这样做?

  • 我期待的一些挑战是:
  • rdf 数据中没有排序保证(afaik)。假设我对某个人感兴趣,并且/people/person 实例引用的一些信息在实际人之前出现在转储中 - 然后我必须第二次通过转储才能找到此引用信息
  • 在存储数据方面,可以为每种类型创建一个集合并在它们之间添加引用或将所有属性保存在一个感兴趣的顶级类型中(根据模式,/people/person 包括/common/topic - 来自 OO-透视 freebase 执行多重继承,可能选择的语言(java)不支持)
  • 一个人可能必须至少两次通过转储,一次收集和存储实体及其属性,另一次在它们之间添加图边)

  • 更新

    目前,我多次通过垃圾场。步骤大致如下:
  • 将 28GB gzip(250GB 未压缩)拆分为 5M 行的更小的 gzip 文件,这导致大约 550 个文件
  • 遍历每个文件,查找声明特定类型的三元组并将主题(freebase 命名空间 + mid)存储在我感兴趣的每个类型的一个文件中
  • (a) 再次浏览每个文件,因为我现在知道中频,我可以组装完整的对象。这些尽可能多地保存在内存中,但持久化到磁盘,每个对象一个 json 文件(在整个转储处理完毕之前,我们无法确定对象是否完整)
  • 遍历磁盘上的所有文件并将它们加载到 arangodb

  • 它有效,但它很慢,而且让我觉得多次通过垃圾场效率低下。并且将有更多的通过转储,在 (a) 期间/之后,我们发现了更多与我感兴趣的核心实体相关的实体。

    向 freebase api 发出数百万个请求也不会好得多。

    这是我对这个主题感兴趣的一些背景知识,如果有一个预制的解决方案会很好。

    最佳答案

    对来自维基百科的数据做了类似的事情 this project .我不知道 Freebase 转储,但它应该与维基百科转储非常相似,不是吗?您需要执行的步骤如下:

  • 将 Freebase 中的数据以您希望将它们存储在 ArangoDB 实例中的形式转换为 JSON 格式。
  • 使用 arangoimp做进口。
  • 关于freebase - 将(部分)Freebase 转储加载到 ArangoDb,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27106718/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com