gpt4 book ai didi

python-3.x - 网页抓取 : Page exists but getting 404 using requests/urllib

转载 作者:行者123 更新时间:2023-12-02 20:37:00 24 4
gpt4 key购买 nike

我正在尝试抓取以下页面: http://usbcdirectory.com/listing/1-us-black-chambers

我使用的是Python 3.5.0

这是我的代码:

urllib.request.urlopen('http://usbcdirectory.com/listing/1-us-black-chambers')

使用上面的内容,我收到 404 未找到错误。但是,当我从浏览器打开该页面时,该页面存在。

我尝试寻找此问题的解决方案,以下是我发现的内容:

  1. 将 urllib 更改为 requests:我已经这样做了,并且状态代码中出现 404 错误
>>>requests.get('http://usbcdirectory.com/listing/1-us-black-chambers')

Request <404>
  • 我检查了我的链接是否正确

  • 我试图查明该页面是否是使用 JavaScript 生成的。我相信事实并非如此。

  • 这里的网页有什么问题?他们是否以某种方式阻止抓取,或者是 URL 的问题?

    最佳答案

    正如您所猜测的,他们可能会阻止您的请求。您可以传递自定义 header 来模拟您的请求,就像来自真实浏览器的请求一样:

    import requests

    url = 'http://usbcdirectory.com/listing/1-us-black-chambers'
    headers = {'Accept': 'text/html'}
    response = requests.get(url, headers=headers)
    print(response.status_code)

    关于python-3.x - 网页抓取 : Page exists but getting 404 using requests/urllib,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46843293/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com