gpt4 book ai didi

scala - Java/Scala 中的网页抓取

转载 作者:行者123 更新时间:2023-12-02 13:30:02 27 4
gpt4 key购买 nike

我需要提取一长串 URL 的关键字、标题和描述(最初每天约 250,000 个 URL,最终每天约 15,000,000 个 URL)

您建议如何执行此操作?最好的解决方案可以扩展到每天 15,000,000 个事件。最好使用 Scala 或 Java

到目前为止我已经看过:

  • Spray - 我对 Spray 还不是很熟悉,所以我不能完全评价它。它对我的任务有用吗?
  • Vertx - 我以前使用过 Vertx,如果这是一个很好的框架,您能否解释一下如何成为使用 Vertx 实现它的最佳方法?
  • Scala scraper - 根本不熟悉。对于我需要的用例和负载来说,它是一个很好的框架吗?
  • Nutch - 我不确定如果我想在我的代码中使用它会有多好。另外,我不确定我的用例是否需要 Solr。有人有过这方面的经验吗?

如果您认为其他选择更好,我会很高兴听到它们

我知道我可能可以深入研究每个解决方案并决定它是否好,但似乎有很多选择,因此任何方向都会受到赞赏。

提前致谢

最佳答案

我们使用StormCrawler对于我们的搜索引擎,StolenCameraFinder 。这一切都是用 java 编写的,我记录下它每天获取超过 400 万个 url,礼貌设置为每主机每秒 1 个 url。瓶颈不是 StormCrawler,而是我的 url 多样性。 每个主机部分很重要,它永远不会为每个主机每秒获取超过 1 个 URL(从技术上讲,它实际上在获取之间留有 1 秒的休息时间)。例如,如果您有 60 个 yahoo.com/* 网址和 1 亿个 flickr.com/* 网址,那么您仍然不会超过 120 个/分钟。

您可以将数据直接索引到 ElasticSearch这非常有效。 StormCrawler 有 Hook ,因此您应该能够非常轻松地运行某些东西。

关于scala - Java/Scala 中的网页抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35273211/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com