freebase - 将(部分)Freebase 转储加载到 ArangoDb-6ren

freebase - 将(部分)Freebase 转储加载到 ArangoDb

转载作者：行者123 更新时间：2023-12-04 20:40:33

26

4

我的网络搜索没有发现任何有用的东西，也许还没有人这样做过。虽然我已经做了一些处理 freebase dumps 并使用 rdf 和 arangodb，但我的经验仍然非常有限，我想听听关于这个主题的意见/建议/经验。

我想知道的一些事情:

有没有人将 freebase 转储导入 ArangoDb？

有没有工具可以帮助实现这一目标？

手动执行此操作的策略是什么？

或者也许这只是一个坏主意，不应该这样做？

我期待的一些挑战是:

rdf 数据中没有排序保证(afaik)。假设我对某个人感兴趣，并且/people/person 实例引用的一些信息在实际人之前出现在转储中 - 然后我必须第二次通过转储才能找到此引用信息

在存储数据方面，可以为每种类型创建一个集合并在它们之间添加引用或将所有属性保存在一个感兴趣的顶级类型中(根据模式，/people/person 包括/common/topic - 来自 OO-透视 freebase 执行多重继承，可能选择的语言(java)不支持)

一个人可能必须至少两次通过转储，一次收集和存储实体及其属性，另一次在它们之间添加图边)

更新

目前，我多次通过垃圾场。步骤大致如下:

将 28GB gzip(250GB 未压缩)拆分为 5M 行的更小的 gzip 文件，这导致大约 550 个文件

遍历每个文件，查找声明特定类型的三元组并将主题(freebase 命名空间 + mid)存储在我感兴趣的每个类型的一个文件中

(a) 再次浏览每个文件，因为我现在知道中频，我可以组装完整的对象。这些尽可能多地保存在内存中，但持久化到磁盘，每个对象一个 json 文件(在整个转储处理完毕之前，我们无法确定对象是否完整)

遍历磁盘上的所有文件并将它们加载到 arangodb

它有效，但它很慢，而且让我觉得多次通过垃圾场效率低下。并且将有更多的通过转储，在 (a) 期间/之后，我们发现了更多与我感兴趣的核心实体相关的实体。

向 freebase api 发出数百万个请求也不会好得多。

这是我对这个主题感兴趣的一些背景知识，如果有一个预制的解决方案会很好。

最佳答案

对来自维基百科的数据做了类似的事情 this project .我不知道 Freebase 转储，但它应该与维基百科转储非常相似，不是吗？您需要执行的步骤如下:

将 Freebase 中的数据以您希望将它们存储在 ArangoDB 实例中的形式转换为 JSON 格式。

使用 arangoimp做进口。

关于freebase - 将(部分)Freebase 转储加载到 ArangoDb，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27106718/

26

4

0

typescript - A 部分部分 io-ts
我在使用 io-ts 时遇到一些问题。我发现它确实缺乏文档，我取得的大部分进展都是通过 GitHub issues 取得的。不，我不明白 HKT，所以没有帮助。基本上，我在其他地方创建一个类型，ty
java - 匹配完整文件正则表达式中的 A 部分，但不匹配 B 部分
我必须创建一个正则表达式来搜索整个文件，以找到与 Java XML 解析器的第一部分(但不是第二部分)的匹配项。这将用于防止某些 XXE 攻击。不幸的是，它确实必须是单个正则表达式，并且它确实需要搜索
c# - 部分/部分中的 asp.net mvs 部分？
我有一些简单的 Shared/_Header.cshtml 文件中的内容。 My Shared/_Layout.cshtml 通过调用插入该代码 @Html.Partial("_Header") 目前
java - Selenium 只执行循环的 if != null 部分，不运行循环的 "else if null "部分
我有一个 if-else 语句，其中: 条件 1:ID 匹配并且自动填充某些字段。然后 if 语句只填充其余字段条件 2:ID 不匹配，所有字段均为空白。 ELSE 语句将它们全部填充当我使条件
javascript - 无法在 JSFIDDLE 中使用滚动魔法(第 1 部分，共 2 部分)
我正在开发一个单页滚动网站。我正在尝试实现 ScrollMagic 并固定第一部分，以便网站的其余部分滚动到固定部分的顶部。我尝试创建一个 jsfiddle 来显示问题，但我似乎无法让 jsfiddl
javascript - 既然有