gpt4 book ai didi

Java CSS 爬虫

转载 作者:行者123 更新时间:2023-12-01 05:50:55 25 4
gpt4 key购买 nike

我正在寻找一个能够抓取页面 CSS 的网络爬虫。我不需要任何其他花哨的爬行能力。

我正在尝试通过 Xapian、Nutch 和 Heritrix。它们似乎都有点复杂。如果有人有任何经验或建议,我很乐意听到。我们也欢迎针对上述任何平台提供易于理解的教程。

大卫

最佳答案

你是对的,不要使用它们,它们太重了。

使用:Crawler4j

按照简单的爬虫程序的现场教程进行操作。

您需要的唯一更改是在 MyCrawler.java 中:从 FILTERS 模式中删除“css”在visit()方法中,输入一个简单的条件,如下:

if (url.contains(".css")) {
// do what you need with it
}

就是这样 - 你很棒!

关于Java CSS 爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4707598/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com