python - 使用 Python(漂亮的汤)抓取需要单击 "I agree to cookies"按钮的网页？-6ren

python - 使用 Python(漂亮的汤)抓取需要单击 "I agree to cookies"按钮的网页？

转载作者：太空宇宙更新时间：2023-11-04 01:54:26

25

4

我正在尝试为当天的所有足球(足球)比赛抓取以下 URL:https://www.soccerstats.com/matches.asp?matchday=2&daym=tomorrow

我的代码以前可以工作，但网站已经更改，您现在需要在网站加载页面之前单击“我同意 cookie”按钮。这现在导致我的代码出现问题。有解决办法吗？

非常感谢任何帮助。

我已经尝试查看 bs4 的文本输出，很明显网站没有加载，而是在输出中可以看到“我同意 cookies”文本，这意味着它没有通过这个阶段。

from bs4 import BeautifulSoup
import requests

url = "https://www.soccerstats.com/matches.asp?matchday=2"
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data, 'html.parser')
all_matches = []

all_matches = re.findall(r"""<a class='button' style='background-color:#AAAAAA;font-color=white;' href='(.*?)'>""", data)

输出应列出单个匹配 url。

最佳答案

当您点击“我同意 cookie”时，网站会向您的浏览器发送一个 cookie，基本上是告诉网站“该用户已同意 cookie”。您可以通过打开“应用程序”选项卡并单击左侧的“Cookies”，然后导航到您所在的网站，在 Chrome 的 DevTools 之类的工具中捕获此 cookie。

完成后，单击“我同意 cookie”并查看哪些 cookie 添加到您的浏览器。在我查看的网站上，其中一个添加的 cookie 名为 __hs_opt_out，其值为 no。然后，您可以简单地 add that cookie to your request :

r = requests.get(url, cookies={'__hs_opt_out': 'no'})

或者，甚至更好:

s = requests.Session()
s.cookies.update({'__hs_opt_out': 'no'})
s.get(url)  # Automatically uses the session cookies

# Some more code...

s.get(other_url)  # Remembers the cookie from before

关于python - 使用 Python(漂亮的汤)抓取需要单击 "I agree to cookies"按钮的网页？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57171353/

25

4

0

文章推荐： python - "ERROR: Failed building wheel for doom-py"如何解决

文章推荐： css - 如何在 css 中更改页脚背景颜色？

文章推荐： c - EN4B指令的使用

文章推荐： html - 在这种情况下如何垂直居中 img

cookies - Vue-Cookies : this. $cookies 未定义
在我的主要组件中，我有: mounted() { window.$cookie.set('cookie_name', userName, expiringTime); }, 这会产生以下错误:
cookies - Cookie 的最大大小是多少？每个网站的浏览器中可以存储多少个 Cookie？
我正在学习 cookie，并且我想知道在编写依赖 cookie 来存储状态的 Web 应用程序时浏览器的支持情况。对于每个域/网站，可以向浏览器发送多少个 Cookie，大小是多少？如果发送并存储
cookies - cookie less 域中的 cookie
我已经为我的站点设置了一个 cdn，并将其用于 css、js 和图像。网站只提供那些文件我的问题是 firefox 中的页面速度插件对于我的图片请求，我看到了一个 cookie Cookie fc
cookies - jMeter Cookie 管理器不存储所有 cookie
在阅读了 Internet 上的文档和帖子后，我仍然无法解决 jMeter 中的 Cookie Manager 问题。我在响应头中得到了 sid ID，但它没有存储在我的 cookie 管理器中。
cookies - Set-Cookie 是否包含多个 cookie？
我正在 Node.JS 中处理一些类似浏览器的 cookie 处理，想知道从 NodeJS and HTTP Client - Are cookies supported? 开始对这段代码进行扩展到什
cookies - Owin cookie 身份验证设置-cookie 未保存在浏览器中
我正在此堆栈上构建自托管 Web 服务器:欧文南希网络 API 2 我正在使用 Katana 的 Microsoft.Owin.Security.Cookies 进行类似表单的身份验证。我得到了 Se
cookies - 是否可以代表用户在我的网站上禁用第三方 cookie？
我有一个从另一个网站加载资源的网站。我已经能够确定: 第三方网站在用户的浏览器上放置 cookie。如果我在浏览器设置中禁用第三方 cookie，第三方网站将无法再在浏览器上放置 cookie。该
cookies - 编辑和查看 Cookie
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q
cookies - cookie 的持久性
我正在使用 python mechanize 制作登录脚本。我已经读到 Mechanize 的 Browser() 对象将自动处理 cookie 以供进一步请求。我怎样才能使这个 cookie 持久
cookies - 是否可以在域和子域之间共享 cookie
我正在尝试在 www.example.com 和 admin.other.example.com 之间共享 cookie 我已经能够使其与 other.example.com 一起使用，但是无法访问子
cookies - 设置子子域可访问的跨子域 cookie？
我设置了一个域为 .example.com 的 cookie .它适用于我网站上的每个一级子域，应该如此。但是，它不适用于 n 级子域，即 sub.subdomain.example.com和 to
cookies - 保存时间最长的 cookies
我想让用户尽可能长时间地登录。我应该使用什么？普通 cookies 持久性 cookie 快闪 cookies ip地址 session 或这些的某种组合？最佳答案我认为 Flash cook
cookies - 互联网广告商如何使用第三方 Cookie？
如果给定的 Web 服务器只能读取其域内设置的 cookie，那么 Internet 广告商如何从其网络外的网站跟踪用户的 Web 流量？是否存在某种“supercookie”全局广告系统，允许广告
cookies - 我们可以为一个域设置多少个 cookie？
我知道一个 cookie 可以容纳多少数据是有限制的，但是我们可以设置多少个 cookie 有限制吗？最佳答案来自 http://www.ietf.org/rfc/rfc2109.txt Prac
cookies - 谷歌分析 Cookie
如果我拒绝创建 cookie，则在我的浏览器中创建名称为 __utma、__utmb 等的 cookie。我认为这个 cookie 是用于谷歌分析的。任何人都知道谷歌如何创建这个 cookie，即使浏
cookies - 环境之间的沙盒 Cookie
我有一个生产环境和一个登台环境。我想知道我是否可以在环境之间沙箱 cookie。我的设置看起来像生产 domain.com - 前端 SPA api.domain.com - 后端节点分期 sta
cookies - cookie 是如何工作的？
我想知道浏览器(即 Firefox )和网站的交互。当我将用户名和密码提交到登录表单时，会发生什么？我认为该网站向我发送了一些 cookie，并通过检查这些 cookie 来授权我。 cookie
cookies - 跨域 Cookie
我在两个不同的域中有两个网络应用程序 WebApp1 和 WebApp2。我在 HttpResponse 的 WebApp1 中设置 cookie。如何从 WebApp2 中的 HttpReque
cookies - Dartium没有在websocket握手上发送httpOnly cookie
我正在使用Dartium“Version 34.0.1847.0 aura(264987)”，并从Dart创建一个websocket。但是，如果不是httpOnly，我的安全 session cook
Javascript Cookie 代码不存储 cookie/读取空 cookie 值？
我从 Headfirst Javascript 书中获取了用于 cookie 的代码。但由于某种原因，它不适用于我的浏览器。我主要使用chrome和ff，并且我在chrome中启用了本地cookie。

首页

博学

6Ren·AI

商城

python - 使用 Python(漂亮的汤)抓取需要单击 "I agree to cookies"按钮的网页？