gpt4 book ai didi

Java:如何使用 Selenium 从亚马逊抓取图像?

转载 作者:行者123 更新时间:2023-12-02 19:55:13 25 4
gpt4 key购买 nike

我正在尝试使用 Selenium WebDriver 从 Amazon 上的此 URL 抓取页面左侧的 6 个图像:

http://www.amazon.com/EasyAcc%C2%AE-10000mAh-Brilliant-Smartphone-Bluetooth/dp/B00H9BEC8E

但是,无论我尝试什么都会导致错误。到目前为止我尝试过的:

  1. 我尝试使用 XPATH 直接抓取图像,然后使用“getAttributes”方法提取 src。例如,对于页面上的第一个图像,XPATH 是:

    .//*[@id='a-autoid-2']/span/input

所以我尝试了以下方法:

  String path1 = ".//*[@id='a-autoid-2']/span/input";
String url = "http://www.amazon.com/EasyAcc%C2%AE-10000mAh-Brilliant-Smartphone-Bluetooth/dp/B00H9BEC8E";
WebDriver driver = new FirefoxDriver();
driver.get(url);
WebElement s;
s = driver.findElement(By.xpath(path1));
String src;
src = s.getAttribute("src");
System.out.println(src);

但我找不到来源。

注意:仅当从某些类型的产品中抓取图像时才会出现此问题。例如,我可以使用 Selenium 轻松地从该产品中抓取图像:

http://www.amazon.com/Ultimate-Unification-Diet-Health-Disease/dp/0615797806/

import java.util.List;

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.firefox.FirefoxDriver;

public class mytest {

public static void main(String[] args) {
// TODO Auto-generated method stub



String path = ".//*[@id='imgThumbs']/div[2]/img";

String url = "http://www.amazon.com/Ultimate-Unification-Diet-Health-Disease/dp/0615797806/";
WebDriver driver = new FirefoxDriver();
driver.get(url);


WebElement s;
s = driver.findElement(By.xpath(path));
String src;
src = s.getAttribute("src");
System.out.println(src);

driver.close();


}
}

这段代码可以完美运行。只有在抓取某些产品时,似乎没有办法解决。

  • 我尝试单击导致 iframe 打开的图像,但我也无法从此 iframe 中抓取图像,即使在切换到 iframe 后也是如此:

    driver.switchTo().frame(IFRAMEID);

  • 我知道我可以使用“屏幕截图”方法,但我想知道是否有办法直接抓取图像?

    谢谢

    最佳答案

    试试这个代码

        String path = "//div[@id='imageBlock_feature_div']//span/img";

    String url = "http://rads.stackoverflow.com/amzn/click/0615797806";
    WebDriver driver = new FirefoxDriver();
    driver.get(url);

    List<WebElement> srcs;
    srcs = driver.findElements(By.xpath(path));

    for(WebElement src : srcs) {
    System.out.println(src.getAttribute("src"));
    }

    driver.close();

    结果

    2015-01-23 12:36:14 [main]-[INFO] Opened url: http://rads.stackoverflow.com/amzn/click/B00H9BEC8E
    http://ecx.images-amazon.com/images/I/41cOP3mFX3L._SX38_SY50_CR,0,0,38,50_.jpg
    http://ecx.images-amazon.com/images/I/51YkMhRXqcL._SX38_SY50_CR,0,0,38,50_.jpg
    http://ecx.images-amazon.com/images/I/51nSbXF%2BCTL._SX38_SY50_CR,0,0,38,50_.jpg
    http://ecx.images-amazon.com/images/I/31s%2B31F%2BQmL._SX38_SY50_CR,0,0,38,50_.jpg
    http://ecx.images-amazon.com/images/I/41FmTOJEOOL._SX38_SY50_CR,0,0,38,50_.jpg
    http://ecx.images-amazon.com/images/I/41U6qpLJ07L._SX38_SY50_CR,0,0,38,50_.jpg

    但是,要获取亚马逊图片,我建议您尝试亚马逊API https://affiliate-program.amazon.com/gp/advertising/api/detail/main.html

    好多了。

    关于Java:如何使用 Selenium 从亚马逊抓取图像?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28102697/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com