go - 将 freebase 数据转储修剪为仅英文实体-6ren

go - 将 freebase 数据转储修剪为仅英文实体

转载作者：数据小太阳更新时间：2023-10-29 03:37:44

24

4

我有一个压缩的 freebase 数据转储，其中包含所有实体。我如何使用 grep 或其他工具将数据转储修剪为仅包含英文实体？

这是我试图让 rdf 转储看起来像的东西:http://play.golang.org/p/-WwSysL3y3

<card>
    <title></title>
    <image></image>
    <text></text>
    <facts>
        <fact></fact>
        <fact></fact>
        <fact></fact>
    </fact>
</card>

其中 card 是在所有子元素中都有内容的每个实体。标题是/类型/对象/名称。文本是由 "https://usercontent.googleapis.com/freebase/v1/image"%s"\n", id 完成的主题中间的图像。 Text 是实体的/common/document/text。和事实及其事实 child 作为事实，如年龄、出生日期、高度，这些事实显示在搜索的知识面板中。

这是我在 Go (Golang) 中尝试将 rdf 解析为 xml 的尝试。如果有人可以帮助我获得这种形式的 rdf，我将不胜感激。

这是我正在尝试做的算法或逻辑:

For every entity written in english:

    parse the `type/object/name`property's  and write that to the xml file in the `<title></title>` element.

    parse the mid and add that to `https://usercontent.googleapis.com/freebase/v1/image`and then write the result to the xml file in the <image></image> element.

    parse the common/document/text property and writes its value to the <text></text> element.

    And lastly, for each fact about the entity, write them to the <fact></fact> elements in the XML file, which are all children of the <facts></facts> element.

最佳答案

我同意 Joshua Taylor 的观点，这个问题很难解读，因为 entity 通常是 Freebase 对象的同义词，它可能有多种语言的标签(或者根本没有标签/文本)。

如果我们将问题改写为“如何从压缩的 Freebase 转储中过滤所有非英语文本？”，它就变成了我们可以实际回答的问题。

在 RDF 中，所有字符串都标有它们的语言，所以如果我们看到类似

ns:award.award_winner   rdfs:label      "Lauréat"@fr.

我们可以看出 Lauréat 是 Freebase 类型的法语名称，在英文中称为 Award Winner。

要过滤掉非英文标签，请使用 zgrep 过滤那些匹配“@...但不匹配”@en 的行。这将为您提供所有类型、属性、数字和英文标签/描述，但不会排除那些至少没有一个英文标签的对象(您的问题的另一种可能解释)。要执行该级别的过滤，您可能需要比 grep 更强大的工具。

关于go - 将 freebase 数据转储修剪为仅英文实体，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25870358/

24

4

0

文章推荐： c# - 空合并运算符是否有 "opposite"？ (……用任何语言？)

文章推荐： c# - "k += c += k += c;"中是否有内联运算符的解释？

文章推荐： go - 来自接口(interface)值的底层指针类型

freebase - Freebase 数据库中有哪些类型？
我读到，对于每个实体，都可以有一个或多个与之相关的类型。总体而言，Freebase 中可用/涵盖的所有类型有哪些？有没有可以获取这些信息的地方？最佳答案有23425 Freebase 中的类型，但
freebase - 如何正确地归因于 Freebase
我希望这是问这个问题的正确地方。我试图归因于 Freebase，但该网站:https://www.freebase.com/policies/attribution 不产生任何 HTML 代码或图像
freebase - 是否有 Freebase 类型的分层表示？
例如，如果某个主题(例如:德克萨斯州)的类型为/location/citytown，我还会看到同一主题附加了一个类型“/location/location”。另外，这里因为主题是城市或城镇的名称，默认
freebase - 如何在中期之前在 freebase 中搜索
我刚刚从 Freebase 转储了数据，但是当我在数据中看到“/m/03lp844”时，它是中间的。但是我如何从那个中频中获得更多细节呢？我在文档中找不到任何内容。所以，我丢弃了电影数据，当我寻找
freebase - 在 freebase 中找不到实体名称
我们正在开展一个研究项目，用知识库回答问题。我们采用了数据集 SimpleQuestions ( https://research.fb.com/projects/babi/ )。我们将最新的 fr
freebase - 使用 freebase 进行命名实体识别
我了解 DBPedia Spotlight 对给定文档进行命名实体识别。为此，它使用存储在文件系统中的下载的 DBPedia 文件。请参阅 URL:https://github.com/dbpedia
freebase - 从已弃用的 freebase 中查找所有实体名称
我正在训练一些将单词表示为向量的机器学习模型，使用 freebase 作为训练数据。由于 API 已被弃用，我正在使用原始的 freebase 转储，它现在是 31 亿个三元组的列表，包含超过 5 亿
freebase - 从 Freebase 下载和使用特定数据库
我想下载 Freebase 数据库的一部分(特别是 /film/film 数据转储)。目前我只看到下载整个数据转储的选项:https://developers.google.com/freebase
freebase - 编写一个 Freebase MQL 查询来获取有关给定主题的所有信息？
我想编写一个查询来获取关于某个主题的所有已知信息(只需要一层深度。在 Freebase MQL Editor 工作时他们为“我们所知道的关于 Jimi Hendrix 的一切”给出了以下示例: {
freebase - 通过新的 Freebase UI 添加图像不起作用
对于某些 Freebase 主题，没有可用的图像(例如 https://www.freebase.com/m/0399p)，并且在某些情况下，我有可用的图像，我想将它们添加到 Freebase，因为它
Freebase - 如何使用 freebase-rdf-latest？
我从 freebase.com 下载了 freebase-rdf-latest。我将其解压缩，现在我有一个 380.7Gb 的文件。我怎样才能读取这些数据？您推荐我哪个程序？感谢您的帮助! 最佳答案
freebase - 如何在 MQL Freebase 查询中表达当前日期？
Freebase 的 metaweb query language如果你传入 ISO8601，可以用来检索 future 的事件格式化日期。 [{ "id": null,
freebase - 如何从 FreeBase.com 以意大利语检索内容？
如何从 FreeBase.com 以意大利语检索内容？现在，我只能看到来自 eng.wikipedia.org 的内容. 最佳答案 Freebase 中的许多信息与语言无关，但是如果您想要意大利语字
freebase - 将 Freebase 完整转储文件加载到 Virtuoso
我已经从这个链接下载了完整的 RDF Freebase 转储文件“freebase-rdf-2012-12-09-00-00.gz”(7.5GB)http://download.freebaseapp
freebase - 将(部分)Freebase 转储加载到 ArangoDb
我的网络搜索没有发现任何有用的东西，也许还没有人这样做过。虽然我已经做了一些处理 freebase dumps 并使用 rdf 和 arangodb，但我的经验仍然非常有限，我想听听关于这个主题的意见
freebase - 问答 (QA) 是否已与 Freebase 一起用作知识库？
以前是否有人使用 Freebase 作为知识库在问答机上做过任何工作？我在网上搜索了这个，但没有得到任何实质性的东西。有谁知道在输入非结构化问题并且 QA 引擎利用 Freebase 提供答案的这个领
freebase - 问答 (QA) 是否已与 Freebase 一起用作知识库？
以前是否有人使用 Freebase 作为知识库在问答机上做过任何工作？我在网上搜索了这个，但没有得到任何实质性的东西。有谁知道在输入非结构化问题并且 QA 引擎利用 Freebase 提供答案的这个领
freebase - 使用 MQL 查询或 API 调用列出所有 Freebase 域
我想开发一个 Freebase java 应用程序，让您浏览 Freebase。我认为一个好的起点是模仿 Freebase Schema Explorer 并允许我的应用程序的用户“深入”通过域、域
freebase - 旧的 Freebase MQL 读取查询在新的 Google API 中不起作用
这是使用 api.freebase.com 返回一些结果的旧 mqlread 查询示例: https://api.freebase.com/api/service/mqlread?queries={"
freebase - 旧的 Freebase MQL 读取查询在新的 Google API 中不起作用
这是使用 api.freebase.com 返回一些结果的旧 mqlread 查询示例: https://api.freebase.com/api/service/mqlread?queries={"

首页

博学

6Ren·AI

商城

go - 将 freebase 数据转储修剪为仅英文实体