gpt4 book ai didi

使用webmagic实现爬虫程序示例分享

转载 作者:qq735679552 更新时间:2022-09-29 22:32:09 24 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章使用webmagic实现爬虫程序示例分享由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

代码如下

package com.letv.cloud.spider,

  。

import java.util.HashSet; import java.util.List,

import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Spider; import us.codecraft.webmagic.processor.PageProcessor,

public class MoviePaperPageProcessor implements PageProcessor {  private Site page = Site.me().setRetryTimes(3).setSleepTime(1000),

 public Site getSite() {   return page;  } 。

 public void process(Page page) {   List<String> links = page.getHtml().links().regex(     "http://posters.aa.com/poster/\\d+").all();   links = removeDuplicate(links);   page.addTargetRequests(links);   page.putField("title", page.getHtml().xpath(     "//div[@id='imdbleftsecc']/center/h1/text()").toString());   page.putField("imgurl", page.getHtml().xpath(     "//div[@id='imdbleftsecc']/center/img/@src").toString());  } 。

 public static void main(String[] args) {   for (int i = 1; i <= 3; i++) {    Spider.create(new MoviePaperPageProcessor()).addUrl(      "http://posters.aa.co/poster_page/" + i).thread(5).run();   }  } 。

 public static List removeDuplicate(List list) {   HashSet hs = new HashSet(list);   list.clear();   list.addAll(hs);   return list;  } } 。

  。

最后此篇关于使用webmagic实现爬虫程序示例分享的文章就讲到这里了,如果你想了解更多关于使用webmagic实现爬虫程序示例分享的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com