gpt4 book ai didi

javascript - 如何用python获取webbrowser的源码

转载 作者:行者123 更新时间:2023-11-28 20:49:30 24 4
gpt4 key购买 nike

我正在用 scrapy 写一个蜘蛛,但是,我遇到了一些用 js 呈现的网站,因此 urllib2.open_url 不起作用。我发现我可以使用 webbrowser.open_new(url) 打开浏览器,但是,我没有找到如何使用 webbrowser 获取页面的 src 代码。有什么方法可以让我使用 webbrowser 来执行此操作,或者是否有任何其他没有 webbrowser 的解决方案来处理 js 站点?

最佳答案

您可以将 scraper 与可用的 Webkit 引擎一起使用。

其中之一是干刮。

例子:

import dryscrape

search_term = 'dryscrape'

# set up a web scraping session
sess = dryscrape.Session(base_url = 'http://google.com')

# we don't need images
sess.set_attribute('auto_load_images', False)

# visit homepage and search for a term
sess.visit('/')
q = sess.at_xpath('//*[@name="q"]')
q.set(search_term)
q.form().submit()

# extract all links
for link in sess.xpath('//a[@href]'):
print link['href']

# save a screenshot of the web page
sess.render('google.png')
print "Screenshot written to 'google.png'"

查看更多信息:

https://github.com/niklasb/dryscrape
https://dryscrape.readthedocs.org/en/latest/index.html

关于javascript - 如何用python获取webbrowser的源码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14270939/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com