gpt4 book ai didi

hadoop - 将数据从网站加载到 hdfs

转载 作者:可可西里 更新时间:2023-11-01 15:07:02 27 4
gpt4 key购买 nike

我需要上传存在于网络链接中的数据,例如“博客”hdfs

现在我正在寻找完成这个的选项可以找到下面的链接:

http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

但是通过阅读 flume 文档 ,我不清楚如何设置 flume 源指向博客内容所在的网站。

根据我对 fluem 文档的理解,需要有一个网络服务器,我需要在其中部署一个应用程序,然后将生成网络日志,这些日志将由 flume 传输到 hdfs。

但我不想要 Web 服务器日志,实际上我正在寻找博客内容(即所有数据 + 博客上的评论,如果有的话)这是一种非结构化数据,然后我想进一步处理此数据使用 java map-reduce 。

但不确定我的方向是否正确。

我也经历过 pentaho 。但不清楚如果使用 PDI 我可以从网站并将其上传到 hdfs 。

上面的任何信息都会非常有用。

提前致谢。

最佳答案

Flume 可以提取数据(如 Twitter 的情况),也可以将数据推送到 Flume,如使用 FlumeAppender 的服务器日志的情况。 .

将博客数据写入HDFS

a) 博客应用程序应该将数据推送到 HDFS,就像 FlumeAppender 的情况一样。必须对 blogger 应用程序进行更改,这在大多数情况下并非如此。

b) Flume 可以像 Twitter 一样使用适当的 API 提取博客数据。 Blogger提供了拉取代码的API,可以在Flume源码中使用。 Cloudera blogreference到 Flume 代码以从 Twitter 中提取数据。

关于hadoop - 将数据从网站加载到 hdfs,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15943159/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com