gpt4 book ai didi

python - 我如何使用 BeautifulSoup 从具有保护的重定向网站获取 html 内容?

转载 作者:太空宇宙 更新时间:2023-11-04 04:23:10 25 4
gpt4 key购买 nike

我在尝试从网页获取 html 内容时遇到问题。

在此网站中:https://tmofans.com/library/manga/5763/nisekoi当您单击“Capitulo 230.00”中的考试播放图标时,它会打开下一个链接:https://tmofans.com/goto/347231将您重定向到此网站:https://tmofans.com/viewer/5c187dcea0240/paginated

问题是当您直接打开此链接时:https://tmofans.com/goto/347231该页面给出了 403 Forbidden 的消息。重定向到最终页面的唯一方法是单击第一页的播放按钮。

我只想使用 tmofans.com/goto 链接获取最终 url 内容

我尝试使用请求和 BeautifulSoup 获取 html 内容

import requests
from BeautifulSoup import BeautifulSoup

response = requests.get("https://tmofans.com/goto/347231")
page = str(BeautifulSoup(response.content))

print page

当我使用 https://tmofans.com/goto/347231 执行此操作时我只得到403 Forbidden page的内容。

最佳答案

该网站会检查您是否有来自他们网站的引荐来源网址,否则会给您 403 响应。您可以通过设置引荐来源网址轻松绕过此问题。

import requests
ref='https://tmofans.com'
headers = { 'Referer': ref }
r = requests.get('https://tmofans.com/goto/347231',headers=headers)
print(r.url)
print(r.status_code)

输出

https://tmofans.com/viewer/5c187dcea0240/paginated
200

关于python - 我如何使用 BeautifulSoup 从具有保护的重定向网站获取 html 内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54081009/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com