gpt4 book ai didi

Python::请求身份验证

转载 作者:行者123 更新时间:2023-11-30 22:42:55 25 4
gpt4 key购买 nike

我正在尝试使用 BeautifulSoup 抓取网站。该网站需要登录。

https://www.bahn.de/p/view/meinebahn/login.shtml

研究网络后我了解到获得授权的一种正确方法是使用 requests

我的代码如下所示:

url = 'https://www.bahn.de/p/view/meinebahn/login.shtml'
header = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5)AppleWebKit 537.36 (KHTML, like Gecko) Chrome","Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp ,*/*;q=0.8"}

user = "username"
pwrd = "password"

response = requests.post(url,headers = header, auth=(user, pwrd))
page = requests.get('https://fahrkarten.bahn.de/privatkunde/meinebahn/meine_bahn_portal.go?lang=de&country=DEU#stay')

soup = BeautifulSoup(page.text, 'html.parser')

不幸的是,这不起作用 soup是一段 html 文本,其中指出“您已退出我们的系统”。虽然response的结果是 <Response [200]>

我有点挣扎于 auth有两个原因:

  1. 我对身份验证方法的理解是否正确,即首先发布登录详细信息,然后访问登录“背后”的网站)或者这是否有不同的工作方式?
  2. 如何确定网站是否需要更特殊的身份验证方法? html 代码中是否有要查找的关键字?

任何帮助将不胜感激,因为我真的很想理解它,而且我显然是“新手”,无法从手册中获得正确的结论(例如 http://docs.python-requests.org/en/master/user/authentication/ )

最佳答案

了解网站身份验证工作原理的最简单方法是在登录时捕获流量,并找出幕后发生的情况:使用哪个 URL、提交哪些数据等

您可以使用 fiddlercharles,或者最方便的 Chrome 开发工具(F12 启动),如下所示:

login request

就您而言,整个请求是:

POST /privatkunde/start/start.post HTTP/1.1
Host: fahrkarten.bahn.de
Connection: keep-alive
Content-Length: 74
Cache-Control: max-age=0
Origin: https://www.bahn.de
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.76 Safari/537.36
Content-Type: application/x-www-form-urlencoded
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Referer: https://www.bahn.de/p/view/meinebahn/login.shtml
Accept-Encoding: gzip, deflate, br
Accept-Language: en-US,en;q=0.8

scope=bahnde&lang=de&country=DEU&username=demo&password=demo&login-submit=

最重要的是,由于cookie用于身份验证/验证,因此整个过程需要一个 session ,并且稍后用于访问只有登录用户才能访问的其他网页。

import requests

session = requests.Session() # create a session that handles cookies by default

headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5)AppleWebKit 537.36 (KHTML, like Gecko) Chrome"
... # simulate headers that is used in the actual POST request
}

data = {'scope': 'bahnde', 'lang': 'de', 'country': 'DEU',
'username': 'xxxx', 'password': 'xxxx', 'login-submit': ''
}

# now login
response = session.post(url='https://fahrkarten.bahn.de/privatkunde/start/start.post', data=data, headers=headers)

# once logged in, session can be used to access other web pages
# sometimes you also want to make sure it actually logged in by checking content from response.text
content = response.text
# try to look for your username or other flags with content.find etc.
r2 = session.get(url='xxx') # access other pages

关于Python::请求身份验证,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41955547/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com