gpt4 book ai didi

python - 无法使用 Python 请求库抓取网页

转载 作者:太空宇宙 更新时间:2023-11-04 16:20:32 25 4
gpt4 key购买 nike

我正在尝试使用 python 中的 Requests 从网页(下面的链接)获取一些信息;但是,当我通过 python 的请求库连接时,我在浏览器中看到的 HTML 数据似乎并不存在。 xpath 查询均未返回任何信息。我可以使用对其他网站的请求,例如亚马逊(下面的网站实际上归亚马逊所有,但我似乎无法从中获取任何信息)。

url = 'http://www.myhabit.com/#page=d&dept=men&asin=B00R5TK3SS&cAsin=B00DNNZIIK&qid=aps-0QRWKNQG094M3PZKX5ST-1429238272673&sindex=0&discovery=search&ref=qd_men_sr_1_0'
user_agent = {'User-agent': 'Mozilla/5.0'}
page = requests.get(url, headers=user_agent)
tree = html.fromstring(page.text)
query = tree.xpath("//span[@id=ourPrice]/text()")

最佳答案

元素是使用javascript生成的,可以使用selenium要获取源代码,要进行 headless 浏览,请将其与 phantomjs 结合使用:

url = 'http://www.myhabit.com/#page=d&dept=men&asin=B00R5TK3SS&cAsin=B00DNNZIIK&qid=aps-0QRWKNQG094M3PZKX5ST-1429238272673&sindex=0&discovery=search&ref=qd_men_sr_1_0'

from selenium import webdriver

browser = webdriver.PhantomJS()
browser.get(url)
_html = browser.page_source

from bs4 import BeautifulSoup

print(BeautifulSoup(_html).find("span",{"id":"ourPrice"}).text)
$50

关于python - 无法使用 Python 请求库抓取网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29708484/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com