gpt4 book ai didi

javascript - HTML DOM 基本抓取

转载 作者:行者123 更新时间:2023-12-03 05:04:15 24 4
gpt4 key购买 nike

我试图从检查元素时出现的 HTML DOM 中获取特定元素,但由于某种原因,这是在查找没有执行 javascript 的纯 HTML 代码。有任何想法吗?我所做的与其他人唯一不同的是避免 403 错误的那行代码。

import urllib2
from bs4 import BeautifulSoup as BS

#avoid 403 error
request = urllib2.Request(url, headers={'User-Agent' : "Mozilla/5.0"})

html = urllib2.urlopen(request).read()

soup = BS(html, 'html.parser')

print soup.find('div', {'class' : 'video'})

最佳答案

this is looking into the pure HTML code that doesn't have the javascript executed

javascript 没有被 beautifulsoap 解析,您得到的是原始网页,并且没有执行任何脚本。

The only thing I do differently from the others is that line to avoid 403 error

Urllib2 的默认用户代理字符串是 "Python-urllib/_python_version_",可能您尝试抓取的网站正在过滤该用户代理;通过添加 Firefox 的网页,服务器将向您返回网页,就像您从浏览器访问该网页一样。

关于javascript - HTML DOM 基本抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42080065/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com