gpt4 book ai didi

javascript - 如何使用 Node js 和 puppeteer 抓取图像 src url

转载 作者:太空宇宙 更新时间:2023-11-03 23:11:45 25 4
gpt4 key购买 nike

我想从维基百科页面抓取一张图片,但问题是我一次获得同一张图片的 3 个 url,而这三个 url 位于同一个名为 img 的标签中。我只想源网址。任何人都知道该怎么做。

const puppeteer = require('puppeteer');
const sleep = require('sleep');

(async ()=> {

const browser = await puppeteer.launch({
"headless": false
});

const page =await browser.newPage();

await page.goto("https://www.wikipedia.org/");

const xpathselector = `//span[contains(text(), "Commons")]`;

const commonlinks = await page.waitForXPath(xpathselector);

await page.waitFor(3000);

await commonlinks.click();

await page.waitFor(2000)

//await page.waitForSelector()

const images = await page.$eval(('a[class="image"] > img[src]'),node => node.innerHTML);

console.log(images);

} ) ();

//*[@id="mainpage-potd"]/div[1]/a/img

最佳答案

我敢打赌您“看到”了三个 URL,因为您正在查看 srcset,其中有许多针对不同屏幕的 URL。决议。您可以返回 src 属性:

const images = await page.$eval(('a[class="image"] > img[src]'),node => node.src);

关于javascript - 如何使用 Node js 和 puppeteer 抓取图像 src url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60389889/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com