gpt4 book ai didi

java - 从 REST API 轮询数据到 HDFS

转载 作者:可可西里 更新时间:2023-11-01 15:33:42 24 4
gpt4 key购买 nike

我有一个博客提供了一个 REST API 来下载数据。 API 提供主题列表(JSON 格式)。可以迭代列表以下载每个主题的消息。我想每天下载论坛的所有消息,并存储在HDFS中。

我正在考虑编写一个 Java 程序调用 API 来获取数据并使用 Hadoop API 将其存储在 HDFS 上。我可以使用每日 Oozie 批处理运行 Java 程序。

有更好的方法吗?也许将数据存储在本地文件系统上,最后将文件放在 HDFS 上。我想知道在这种情况下是否可以使用 Flume,它的附加值是什么?

提前致谢

最佳答案

这似乎是一个“简单”的程序。您可以使用任何语言/工具从 rest API 读取 JSON,然后将内容上传到 hdfs。

而且您还需要一个调度程序来安排作业。

使用 Oozie + java/shell action/,它可以更好地跟踪作业历史记录。如果 oozie 已经可用,我会选择这个。

关于java - 从 REST API 轮询数据到 HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28842084/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com