gpt4 book ai didi

python - 如何使用Python在需要谷歌账号登录的网站上进行网页爬虫?

转载 作者:行者123 更新时间:2023-12-02 04:41:58 39 4
gpt4 key购买 nike

我是 Python 的新手,我想使用 Python 抓取几个需要登录 Google 帐户的网站。例如,我想抓取一个网站 xxx.appspot.com 并且我需要登录我的 Google 帐户才能访问它,因为该数据库需要验证并且我是授权人员。

当我做这样的事情时:

content=urllib.urlopen(target_url).read()

当然,我得到的“内容”只是一个登录页面。我如何实现代码,以便抓取工具可以在我进行实际抓取之前登录 Google 帐户。

最佳答案

尝试使用 mechanizecookielib .

下面的代码适用于我的 gmail 登录。用你各自的 url 和东西试试这个。

import mechanize        

def gmaillogin():
browser = mechanize.Browser(factory=mechanize.RobustFactory())
browser.set_handle_robots(False)
r = browser.open("https://accounts.google.com/ServiceLogin?service=mail&passive=true&rm=false&continue=http://mail.google.com/mail/&scc=1&ltmpl=default&ltmplcache=2&emr=1")
browser.select_form(nr=0)
browser.form["Email"] = "emailid"
browser.form["Passwd"] = "password"
browser.submit()

html = browser.response().readlines()

print(html)




if __name__ == "__main__":
gmaillogin()

关于python - 如何使用Python在需要谷歌账号登录的网站上进行网页爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20656237/

39 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com