- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我检查了this question但它只有一个答案,而且有点超出我的理解范围(刚开始使用 Python)。我正在使用 Python 3。
我正在尝试从 this page 抓取数据,但如果你有 BP 帐户,该页面就会有很大不同/更有用。在 BeautifulSoup 为我获取数据之前,我需要程序让我登录。
到目前为止我已经
from bs4 import BeautifulSoup
import urllib.request
import requests
username = 'myUsername'
password = 'myPassword'
from requests import session
payload = {'action': 'Log in',
'Username: ': username,
'Password: ': password}
# the next 3 lines are pretty much copied from a different StackOverflow
# question. I don't really understand what they're doing, and obviously these
# are where the problem is.
with session() as c:
c.post('https://www.baseballprospectus.com/manageprofile.php', data=payload)
response = c.get('http://www.baseballprospectus.com/sortable/index.php?cid=1820315')
soup = BeautifulSoup(response.content, "lxml")
for row in soup.find_all('tr')[7:]:
cells = row.find_all('td')
name = cells[1].text
print(name)
该脚本确实有效,它只是在登录之前从网站中提取数据,所以这不是我想要的数据。
最佳答案
从概念上讲,您的代码没有问题。您使用 session 对象发送登录请求,然后使用同一 session 发送所需页面的请求。这意味着登录请求设置的 cookie 应保留用于第二个请求。如果您想了解有关 Session 对象工作原理的更多信息,请参阅相关的 Requests documentation .
由于我没有棒球招股说明书的有效登录信息,我不得不猜测您发送到登录页面的数据有问题。使用 Chrome 开发者工具中的“网络”选项卡进行快速检查,显示登录页面 manageprofile.php 接受四个 POST 参数:
username: myUsername
password: myPassword
action: muffinklezmer
nocache: some long number, e.g. 2417395155
但是,您要发送一组不同的参数,并为“action”参数指定不同的值。请注意,参数名称必须与原始请求完全匹配,否则manageprofile.php将不接受登录。
尝试用此版本替换有效负载字典:
payload = {
'action': 'muffinklezmer',
'username': username,
'password': password}
如果这不起作用,请尝试添加“nocache”参数,例如:
'nocache': '1437955145'
关于python - 使用python 3从网页抓取数据,需要先登录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31642416/
几个月前,我做了一个功能,我的应用程序正在等待用户文档并做出相应的响应。直到我对项目进行优化并将其更新到最新版本之前,它一直是一种魅力。 如果存在用户文档,则流将产生该文档并关闭该流。 如果云Fire
Stack Overflow 有几个 examples其中函数首先获得可升级锁,然后通过升级获得独占访问。我的理解是,如果不小心使用,这可能会导致死锁,因为两个线程可能都获得了可升级/共享锁,然后都尝
这个问题在这里已经有了答案: MVC 4 Code First ForeignKeyAttribute on property ... on type ... is not valid (1 个回答
以下是部分代码。我需要在 finally 子句中关闭资源。我需要先调用 closeEntry() 还是 close()?我收到一些错误消息。 Error closing the zipoutjava.
我想使用 RxJS-DOM 观察 mousewheel 事件,这样当第一个事件触发时,我转发它然后删除所有值,直到后续值之间的延迟超过先前指定的持续时间。 我想象的运算符可能看起来像: Rx.DOM.
版本似乎与安装的不同。 我在 npm install 上收到警告 我将二进制文件安装到我的家庭/开发目录中,但它不适用于 sudo。所以我安装了apt。 (注意:我并没有真正安装,我提取并将路径放在/
我正在尝试展示 GAN 网络在某些指定时期的结果。打印当前结果的功能以前与 TF 一起使用。我需要换成 pytorch。 def show_result(G_net, z_, num_epoch, s
我是一名优秀的程序员,十分优秀!