gpt4 book ai didi

python-3.x - 使用 XPath 将图像 URL 提取为字符串

转载 作者:行者123 更新时间:2023-12-02 23:12:36 26 4
gpt4 key购买 nike

我无法使用 xpath 从 Flipkart 中提取产品图像 url。

网址:https://www.flipkart.com/f-d-f550x-56-w-bluetooth-home-theatre/p/itmea2aspwcaxuaz?pid=ACCEA2ASHNDGV4DP

目标是提取 src 包含的图像 url。

在本例中:https://rukminim1.flixcart.com/image/416/416/speaker/home-audio-speaker/4/d/p/f-d-a550x-original-imaea2ftzywquzrz.jpeg?q=70应该是输出。

我使用的Xpath是:

//*[@class="_2rDnao"]//img[@src]

在 chrome xpath 帮助程序中使用上面的 xpath,它为我提供了所需的输出,但在 python 脚本中使用时,它显示为空白。

import requests
from lxml import html
import os


request_headers = {
"Accept-Language": "en-US,en;q=0.5",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0.15063; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Referer": "http://thewebsite.com",
"Connection": "keep-alive"
}


webpage=requests.get("https://www.flipkart.com/savehatke/p/itmea2aspwcaxuaz?
pid=ACCEA2ASHNDGV4DP", headers=request_headers)
tree = html.fromstring(webpage.content)
raw_img=tree.xpath('//*[@class="_2rDnao"]//img')

编辑:添加了Python代码

最佳答案

图像 URL 也位于底部包含 json 的脚本中。

import requests
from bs4 import BeautifulSoup
import json

r = requests.get('https://www.flipkart.com/f-d-f550x-56-w-bluetooth-home-theatre/p/itmea2aspwcaxuaz?pid=ACCEA2ASHNDGV4DP')
soup = BeautifulSoup(r.text, 'html.parser')

script = soup.find(id='jsonLD')
json = json.loads(script.text)
for obj in json:
if obj['@type'] == 'Product':
url = obj['image']

print(url)

输出为http://rukmini1.flixcart.com/image/128/128/speaker/home-audio-speaker/4/d/p/f-d-a550x-original-imaea2ftzywquzrz.jpeg?q= 70

关于python-3.x - 使用 XPath 将图像 URL 提取为字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57810030/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com