xml - 将维基百科转储索引到 elasticsearch 获取 XML 文档结构必须在同一实体错误中开始和结束-6ren

xml - 将维基百科转储索引到 elasticsearch 获取 XML 文档结构必须在同一实体错误中开始和结束

转载作者：数据小太阳更新时间：2023-10-29 02:00:44

26

4

我想将 wikipedia 索引到 elasticsearch。

我试过stream2es + elasticsearch 2.0.0和 Wikipedia River 插件 2.6.0 + elasticsearch 1.6.0索引最新的维基百科转储 https://dumps.wikimedia.org/enwiki/20151102/enwiki-20151102-pages-articles-multistream.xml.bz2 .

但是两者都得到了相同的错误信息:

XML document structures must start and end within the same entity.

最佳答案

我不确定如何使 XML 导入工作，但还有另一种选择。最近，维基媒体提供了生产 Elasticsearch 索引的可用转储。

索引每周导出一次，每个 wiki 有两次导出。

内容索引，仅包含文章页面: http://dumps.wikimedia.org/other/cirrussearch/20151116/enwiki-20151116-cirrussearch-content.json.gz
总索引，包含所有页面。这包括讨论页、模板等:http://dumps.wikimedia.org/other/cirrussearch/20151116/enwiki-20151116-cirrussearch-general.json.gz

这些是为 elasticsearch 批量导入 API 格式化的。因为那是 JSON，所以这些也可以在 elasticsearch 之外使用。

尚未记录导入它们，但我大致执行以下操作:

获取当前映射:curl https://en.wikipedia.org/w/api.php?action=cirrus-mapping-dump&format=json > mapping.json
将该映射提供给 elasticsearch:jq .content < mapping.json | curl -XPUT localhost:9200/enwiki_content --data @-
加载转储:zcat enwiki-20151116-cirrussearch-general.json.gz | parallel --pipe -L 2 -N 2000 -j3 'curl -s http://localhost:9200/enwiki_content/_bulk --data-binary @- > /dev/null'

关于xml - 将维基百科转储索引到 elasticsearch 获取 XML 文档结构必须在同一实体错误中开始和结束，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33630222/

26

4

0

文章推荐： xml - node-soap 客户端 (Node.js) 中数组字段的命名空间

文章推荐： golang 将 map[string]interface{} 解码为包含元数组的结构

文章推荐： sql - 如何根据XSD从数据库导出数据到xml

c# - 为什么这不起作用？实体.CurHP - 实体.RIntDamage
都是整数，但一直报错 "Only assignment, call, increment, decrement, await, and new object expressions can be us
c# - 选择具有所有给定标签的 EF 实体(其中标签是 EF 实体)
我有以下情况:一个“对话”实体/表，它有多个关联的标签。Tag 也是一个实体/表 - key/id 是 tagName(一个字符串)。在客户端 (javascript)，我在处理标签时使用字符串数组
java - 是否有基于 hibernate 实体 XML 生成 java 源代码(实体)类的 Maven 插件？
我想通过 maven java 源代码生成器自动生成 java 源代码。我想通过查看一个大实体 xml 文件来创建实体类，该文件将包含系统中的所有实体和实体关系。据我搜索，目前maven中没有这样的插
java - EJB 2.1 实体 bean 与 EJB 3.0 实体 bean
我有一段时间有这个疑问，有人说 EJB 3.0 中没有所谓的实体 bean。有没有可能这样说，EJB 3.0 使用 JPA 来持久化数据并且没有对以前版本(EJB 2.1)中的实体 bean 进行增强
ios - Swift 3 核心数据 - 实体(上下文 :) vs Entity(entity: Location. 实体()，insertInto:上下文)
我观看了关于 Core Data 的 2016 WWDC 视频并查看了各种教程。我见过使用 Core Data Framework 创建对象以持久保存到 managedObjectContext 中的
07、DTD 实体
实体(entites) 用于定义引用普通文本或特殊字符的快捷方式的变量，可在内部或外部进行声明实体引用是对实体的引用声明一个内部实体语法： <!ENTITY 实体名称 "
java - hibernate !实体
This page建议 !ENTITY: If you want to avoid duplication, consider using XML entities (for example, [ ]
entity - 差异聚合根/实体
我正在努力解决这个问题:如何判断一个概念是聚合根还是只是一个实体(属于 AR 的一部分)？ : 他们都有 ID 它们都是由实体或值对象组成也许如果我需要引用其他 AR 中的实体，那么我需要将其设为
没有关系的 Symfony 实体
我使用 Symfony2 和 Doctrine，我有一个关于实体的问题。出于性能方面的考虑，我想知道是否可以在不进行所有关联的情况下使用实体？目前，我还没有找到另一种方法来创建继承带有关联的类的模
附加文件符号的 HTML 实体？
我已经尝试在 HTML 中包含以下代码，用于附加文件符号。但它显示一个空的白框。 📎 📎 📎 是否有替代的 HTML 附加文件符号实体？如果没有，我们可以手动创建
没有持久化的 Grails 实体
我在 grails 中有一个域类......我如何让 gorm 在创建数据库时忽略这个实体？就别管它了。最佳答案如果我理解，你不想从域类创建表？如果是，请在域类中使用此代码: static map
entity - 差异聚合根/实体
我正在努力解决这个问题:如何判断一个概念是聚合根还是只是一个实体(属于 AR 的一部分)？ : 他们都有 ID 它们都是由实体或值对象组成也许如果我需要引用其他 AR 中的实体，那么我需要将其设为
附加文件符号的 HTML 实体？
我已经尝试在 HTML 中包含以下代码，用于附加文件符号。但它显示一个空的白框。 📎 📎 📎 是否有替代的 HTML 附加文件符号实体？如果没有，我们可以手动创建
Java 实体 - 存储日期
如何在我的实体中以 14-04-2017 格式存储日期？但我必须从字符串中解析它。 SimpleDateFormat dateFormat = new SimpleDateFormat("yyyy-
c# - 实体 - 两个连接表是什么类型
我需要从两个连接表中获取数据。数据集是什么类型？我是否需要创建一个包含这两个表中的属性的类以用于数据集类型，或者我可以使用实体模式中的类型。我如何修改我的方法才能正常工作？ public static
php - Cakephp3将多个Mysql表标准化为1个模型表/实体
好的，我们正在尝试建立一个中央站点来查看来自销售我们产品的多个供应商的数据。这些多个供应商使用不同的销售系统(确切地说是两个不同的系统)，因此每个数据库看起来完全不同。我们与他们的数据库同步，因此数据
javascript - Backbone 实体
我是 backbone 的新手。但是当我研究模型实体时，我不明白一些事情。如果我们可以像 java 或 C# 这样的标准语言一样定义模型属性，那就太好了。有没有可能是这样的。所以我的想法是这样的: M
Android - 在可绘制对象中获取形状颜色/实体
我想获取存储在可绘制的 xml 文件中的形状的颜色。我来到了将 Drawable 存储在 Drawable 变量中的步骤，所以，现在我想获取形状的颜色(纯色标签)。有什么建议吗？最佳答案 Gra
java - 实体、服务类和命令对象的最佳实践问题
实体是直接映射到我们的数据库(我们用于 Hibernate)的类。在调用 DAO 之前，我们的服务类包含这些实体的业务逻辑。我们还有命令对象，它们是与特定 View 相关的 POJO。有人告诉我实
C# 函数返回通用对象/实体
在我的应用程序中，我需要显示不同存储过程返回的记录列表。每个存储过程返回不同类型的记录(即列数和列类型不同)。我最初的想法是为每种类型的记录创建一个类，并创建一个函数来执行相应的存储过程并返回 Li

首页

博学

6Ren·AI

商城

xml - 将维基百科转储索引到 elasticsearch 获取 XML 文档结构必须在同一实体错误中开始和结束