gpt4 book ai didi

java - 通过 Flume 将 API 数据传输到 hadoop

转载 作者:可可西里 更新时间:2023-11-01 14:53:12 25 4
gpt4 key购买 nike

我有一个 API它以 xml 格式返回数据。

我想每天运行一次并将返回的数据存储在 Hadoop 中。通过水槽设置文件后有点丢失。对于通过水槽从简单的外部 API 提取数据(如上)/使用 oozie 进行调度的用例,任何人都有端到端的步骤吗?

目前,我已经创建了一个 Java 程序,它可以提取数据并将其放置在一个文件中,该文件具有 indeed_ddmmyyyyhhmmss.xml 以及随后类似的命名制表符分隔的 txt 格式,以便于使用。我可以每天 cron 它并在配置单元中创建外部表以指向文件的位置。对我来说这看起来不像是优雅的解决方案。

最佳答案

您可能会使用 the embedded agent feature在您的 Java 程序中并将事件直接发送到水槽实例

关于java - 通过 Flume 将 API 数据传输到 hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30696226/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com