gpt4 book ai didi

xml - 使用 Hadoop 处理 xml 文件

转载 作者:可可西里 更新时间:2023-11-01 16:21:10 31 4
gpt4 key购买 nike

我是 Hadoop 新手。我对此知之甚少。我的情况如下:我有一组具有相同架构的 xml 文件 (700GB+)。

    <article>
<title>some title</title>
<abstract>some abstract</abstract>
<year>2000</year>
<id>E123456</id>
<authors>
<author id="1">
<firstName>some name1</firstName>
<lastName>some name1</lastName>
<email>email1@domain.com</email>
<affiliations affid="123">
<org>some organization1</org>
<org>some organization2</org>
</affiliations>
</author>
<author id="2">
<firstName>some name2</firstName>
<lastName>some name2</lastName>
<email>email2@domain.com</email>
<affiliations affid="123">
<org>some organization1</org>
<org>some organization2</org>
</affiliations>
</author>
<tags>
<tag>medicin</tag>
<tag>inheritance</tag>
</tags>
</authors>
<references>
<reference>some reference text1</reference>
<reference>some reference text2</reference>
</references>
</article>

我将 xml 文件中的数据转换为包含以下表格的关系数据库

  • 文章
  • 作者
  • 标签
  • 引用资料

我有一套工具可以在表格上工作,用于生成统计报告列表和做一些其他工作人员。由于一个工具对 References 表使用全文搜索,我将其存储在 Lucene Solr 索引中。

我的问题是:我可以将 Hadoop 用于:

  1. 存储 xml 文件中的数据
  2. 在上面列出的实体(作者、文章、标签和引用)之间进行某种分离
  3. 运行我的工具来对数据执行一组非常复杂的查询,如果可以使用 hadoop 来完成,性能会好吗?

如果 Hadoop 不是案例的理想候选者,那么任何其他 nosql 数据库(如 MongoDB 或 Cassandra)将是一个更好的解决方案(因为我对关系系统的最大问题是我正在使用的复杂算法的性能非常差我的工作)?

最佳答案

您所要求的听起来与 Google、Yahoo、Bing 等对网络所做的非常相似 - 以某种形式的标记形式吸收文档,存储它们,处理它们以提取相关信息,并提供一个查询界面最重要的是。我建议研究这些搜索引擎如何利用 MapReduceBigTable实现(如 HBaseCassandra )来做到这一点。

关于xml - 使用 Hadoop 处理 xml 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5264541/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com