gpt4 book ai didi

Python Scraper无法抓取img src

转载 作者:行者123 更新时间:2023-11-30 23:09:03 24 4
gpt4 key购买 nike

我无法从 www.kissmanga.com 网站上抓取图像。我正在使用 Python3 以及 Requests 和 Beautifulsoup 库。抓取的图像标签给出空白的“src”。

SRC:

from bs4 import BeautifulSoup
import requests

scraper = cfscrape.create_scraper()

url = "http://kissmanga.com/Manga/Bleach/Bleach-634--Friend-004?id=235206"

response = requests.get(url)

soup2 = BeautifulSoup(response.text, 'html.parser')

divImage = soup2.find('div',{"id": "divImage"})

for img in divImage.findAll('img'):
print(img)

response.close()

我认为图像抓取已被阻止,因为我相信该网站使用了 cloudflare。基于这个假设,我还尝试使用“cfscrape”库来抓取内容。

最佳答案

您需要等待JavaScript注入(inject)图像的html代码。

有多种工具可以执行此操作,以下是其中的一些工具:

我能够让它与 Selenium 一起工作:

from bs4 import BeautifulSoup

from selenium import webdriver
from selenium.common.exceptions import TimeoutException

driver = webdriver.Firefox()
# it takes forever to load the page, therefore we are setting a threshold
driver.set_page_load_timeout(5)

try:
driver.get("http://kissmanga.com/Manga/Bleach/Bleach-634--Friend-004?id=235206")
except TimeoutException:
# never ignore exceptions silently in real world code
pass

soup2 = BeautifulSoup(driver.page_source, 'html.parser')
divImage = soup2.find('div', {"id": "divImage"})

# close the browser
driver.close()

for img in divImage.findAll('img'):
print img.get('src')

引用How to download image using requests如果您还想下载这些图像。

关于Python Scraper无法抓取img src,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31419641/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com