gpt4 book ai didi

java - 在 MapReduce 作业中使用 selenium 对 Hadoop 有好处吗?

转载 作者:太空宇宙 更新时间:2023-11-04 12:04:03 31 4
gpt4 key购买 nike

我正在使用 hadoop 做一个项目,该项目使用 selenium 从各种 Twitter 帐户收集推文。我不想一个接一个地执行这些操作,而是使用 hadoop 同时执行它们以减少收集时间。这听起来可行吗?它会很好地利用 hadoop 吗?

最佳答案

Twitter 有一个流 API,您可以使用它来获取持续的推文流并将它们加载到 HDFS 并使用任何处理框架(Hive、storm、spark)来理解这些推文。如果您不想使用 twitter API 进行编码,则可以使用打包工具,您可以使用 Apache NiFi 或 Flume 为您获取推文并将其加载到 HDFS。

https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi.processors.twitter.GetTwitter/

http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

关于java - 在 MapReduce 作业中使用 selenium 对 Hadoop 有好处吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40591244/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com