gpt4 book ai didi

java - 高效地将 XML 导入 Elasticsearch

转载 作者:行者123 更新时间:2023-11-30 08:54:22 25 4
gpt4 key购买 nike

目前我正在使用 scrapy 将一个大型 XML 文件从 ftp 服务器解析到 elasticsearch。它可以工作,但似乎是一个重量级的解决方案,而且它也使用大量内存。

我想知道我是否最好为 ES 编写一个插件。我知道 logstash 可以做到,但我不能用它进行内联语言检测等。

A) 如果我为 ES 编写一个实际的插件,我认为它必须使用 Java 来提取数据。这种方法有什么优势吗,或者我可以编写一个单独的 Python 脚本来代替推送数据。是否有任何明确的理由选择一种方法而不是另一种方法(假设我不懂 Java 或 Python)

这归结为:

  • 使用实际的 ES 插件内存管理会更好吗
  • Java 是否比 Python 更适合处理 XML?

最佳答案

将 XML 转换为 JSON 是关于理解 XML 中的实际数据的问题,因为转换为 JSON 并不容易,而且通常需要额外的逻辑。因此,没有防错的 XML>JSON 转换器。

如果您决定使用 Python 来做到这一点,请查看 eTree , lxmlxmltodict . JSON 支持在 python 的标准库中。

如果您决定从 ES 方面试试运气,请查看 elasticsearch-xml .如果 XML 一致,它可能会满足您的需求。

谈论 pythonjava 的解析性能 - 如果性能对您来说很重要,您可以利用一些已经在低级别优化的库,但是通常,好的 Java 代码应该执行得更好。

关于java - 高效地将 XML 导入 Elasticsearch,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29433708/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com