gpt4 book ai didi

java - 找到缩略图后如何获取实际图像?

转载 作者:行者123 更新时间:2023-11-30 06:45:50 25 4
gpt4 key购买 nike

我正在使用 Nutch 抓取图像。我的代码在某种程度上工作,当它找到一个标签时,它会处理找到的图像。它工作得很好,但有一个问题,在这个过程中,大量的缩略图被抓取和处理,而我需要实际的图像。在某些情况下,我确实获得了实际图像及其缩略图,但在许多情况下,我在我抓取的图像集中找不到实际图像。来自壁纸收集网站的此快照可能有助于了解情况,其中这些缩略图而不是实际图像被抓取和处理。

enter image description here

以下是代码的简单草图。

while(nodeWalker.hasNext()){
//some code

if("img".equalsIgnoreCase(nodeName) && nodeType == Node.ELEMENT_NODE){

//image detected
//get image Url, do more.....
}
}

我在网上搜索但找不到如何实现这一目标。

最佳答案

就我的 Nutch 知识而言,您无法区分图像和缩略图,因为缩略图本身就是图像。

您需要自己添加一些逻辑来区分缩略图和您正在搜索的实际图像。

你可以例如验证图像是否是链接到另一个图像或类似内容的 anchor 的一部分。

关于java - 找到缩略图后如何获取实际图像?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43704953/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com