gpt4 book ai didi

java - 应用程序中爬取网站的最佳架构

转载 作者:行者123 更新时间:2023-12-01 15:12:31 25 4
gpt4 key购买 nike

我正在开发一款产品,我们需要一种功能来抓取用户给定的 URL 并发布他单独的移动网站。在抓取过程中我们要抓取网站内容、CSS、图像和脚本。该产品用于执行更多 Activity ,例如安排一些营销 Activity 等等。我想问什么-

完成此任务的最佳实践和开源框架是什么?

我们应该在应用程序本身中执行此操作还是应该有另一个服务器来执行此 Activity (如果此 Activity 需要负载)?请记住,我们每月有 1 个“缺少”用户访问从网站发布他的移动网站,以及大约 1-2,000 个并发用户。

该应用程序是用 Java 和 Java EE 平台构建的,使用 Spring 和 Hibernate 作为服务器端技术。

最佳答案

我们使用 Derkley DB Java 版本来管理链接的堆外队列,以抓取并区分待下载的链接和已下载的链接。

对于解析 HTML,TagSoup 是野生互联网中的最佳选择。

Batik 是解析 CSS 和 SVG 的选择。

PDFBox 非常棒,可以从 PDF 中提取链接

Quartz 调度程序是经过行业验证的事件调度选择。

是的,您将需要一台或多台服务器用于爬行,一台服务器用于聚合结果和调度任务,也许还需要另一台服务器用于 WEB 前端和后端。

这对于 http://linktiger.com 效果很好和 http://pagefreezer.com

关于java - 应用程序中爬取网站的最佳架构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12138182/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com