gpt4 book ai didi

java - 如何实现Java爬虫来爬取PDF文件链接?

转载 作者:行者123 更新时间:2023-12-02 11:05:01 26 4
gpt4 key购买 nike

任务详细信息:Java Web PDF 爬虫工具:Eclipse

我想获得 .pdf 链接作为输出。如何在java中得到它?下面提到的应该是爬行后的输出 http://namastenepal.de 。-http://namastenepal.de/menu_namaste_nepal_chemnitz_vegan_vegetarisch.pdf

从下面提到的它给出了所有 html 链接(href): http://www.netinstructions.com/how-to-make-a-simple-web-crawler-in-java/就像这样我想获得文件的输出。

请给我建议。

谢谢

最佳答案

您可以使用 crawler4j (请参阅 https://github.com/yasserg/crawler4j )并调整 shouldVisit(...) 方法和 visit(...)WebCrawler.class 中相应地适合您的用例。

仅对于您给出的示例,它会类似于:

 @Override
public boolean shouldVisit(Page referringPage, WebURL url) {
String href = url.getURL().toLowerCase();
//only visit pages from namastenepal.de
return href.startsWith("http://namastenepal.de");
}

 @Override
public void visit(Page page) {
String url = page.getWebURL().getURL();

//only process urls ending with .pdf after visting them...
if (url.endsWith(".pdf") {
//do something
}
}

请注意,您不能仅在 shouldVisit(...) 中包含 .pdf,因为您需要让爬虫能够遍历给定网站来查找 .pdf 链接。因此,它需要允许非 .pdf 链接。

关于java - 如何实现Java爬虫来爬取PDF文件链接?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51044793/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com