gpt4 book ai didi

详解java爬虫jsoup解析多空格class数据

转载 作者:qq735679552 更新时间:2022-09-28 22:32:09 27 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章详解java爬虫jsoup解析多空格class数据由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

在使用jsoup爬取其他网站数据的时候,发现class是带空格的多选择,如果直接使用doc.getelementsbyclass(“class的值”),这种方法获取不到想要的数据.

1、问题描述:

在使用jsoup爬取其他网站数据的时候,发现class是带空格的多选择,如果直接使用doc.getelementsbyclass(“class的值”),这种方法获取不到想要的数据.

爬取网站页面结构如下:

详解java爬虫jsoup解析多空格class数据

2、其中文章列表的div为:<div class="am-cf inner_li inner_li_abtest"></div> 。

我们可以看到其class的值为:am-cf inner_li inner_li_abtest。带空格的。多值的.

如果我们还是用getelementsbyclass这个方法获取的话,是获取不到的。eclipse中断点如下:

详解java爬虫jsoup解析多空格class数据

3、可以看到获取的值的长度size=0。没有获取到数据.

经过各方搜索,发现解决方案:使用的不是getelementsbyclass方法,可以使用其他方法.

先上成功后截图:

详解java爬虫jsoup解析多空格class数据

4、我们可以看到数据的长度size=20了。说明获取到数据了.

下面讲解select方法使用:

elements org.jsoup.nodes.element.select(string cssquery) 。

详解java爬虫jsoup解析多空格class数据

5、样式选择器.

查看源码:

详解java爬虫jsoup解析多空格class数据

6、我们知道这个可以多个.

在看看我们案例中使用的是:div.am-cf.inner_li.inner_li_abtest。为什么要这么写呢?

查看需要爬取文章的页面结构:

详解java爬虫jsoup解析多空格class数据

总结:以上就是关于java爬虫jsoup解析多空格class数据的详细内容,感谢大家的阅读和对我的支持.

原文链接:https://jingyan.baidu.com/article/c85b7a64bfca85003bac95ed.html 。

最后此篇关于详解java爬虫jsoup解析多空格class数据的文章就讲到这里了,如果你想了解更多关于详解java爬虫jsoup解析多空格class数据的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com