作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 Nutch 抓取图像。我的代码在某种程度上工作,当它找到一个标签时,它会处理找到的图像。它工作得很好,但有一个问题,在这个过程中,大量的缩略图被抓取和处理,而我需要实际的图像。在某些情况下,我确实获得了实际图像及其缩略图,但在许多情况下,我在我抓取的图像集中找不到实际图像。来自壁纸收集网站的此快照可能有助于了解情况,其中这些缩略图而不是实际图像被抓取和处理。
以下是代码的简单草图。
while(nodeWalker.hasNext()){
//some code
if("img".equalsIgnoreCase(nodeName) && nodeType == Node.ELEMENT_NODE){
//image detected
//get image Url, do more.....
}
}
我在网上搜索但找不到如何实现这一目标。
最佳答案
就我的 Nutch 知识而言,您无法区分图像和缩略图,因为缩略图本身就是图像。
您需要自己添加一些逻辑来区分缩略图和您正在搜索的实际图像。
你可以例如验证图像是否是链接到另一个图像或类似内容的 anchor 的一部分。
关于java - 找到缩略图后如何获取实际图像?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43704953/
我是一名优秀的程序员,十分优秀!