python - 如何在 Python/BS4 中向我的网页抓取脚本添加代理和 header ？-6ren

python - 如何在 Python/BS4 中向我的网页抓取脚本添加代理和 header ？

转载作者：行者123 更新时间：2023-11-30 22:28:13

28

4

我过去曾几次使用BeautifulSoup4和Python来解析本地html文件。现在我想使用代理抓取网站。 (总共需要400个请求/100个请求后IP确实被阻止)

在使用普通的“ sleep ”减慢我的脚本速度后，我想使用代理，但我以前从未这样做过，并且这里确实需要一些帮助。在 Stack Overflow 问题的帮助下，我尝试了两种方法:

方法一
此方法确实适用于其他网站，但不下载数据。当我“打印”收到的数据时，它确实打印“响应[200]”。当我在真实网站上尝试此方法时，它确实返回错误:“URL 超出了最大重试次数:”我怀疑代理没有被正确处理。当我尝试读取 html 时，出现以下错误。

page_html = response.read()
AttributeError: 'Response' object has no attribute 'read'
response = requests.get(URL, proxies=PROXY, headers=HEADER)

方法2
我可以下载另一个网页，但无法从原始网页下载(这阻止了我)。我认为脚本有错误并且代理处理不正确。要么将真实IP发送到网站，要么无法连接到代理:

response = urllib.request.urlopen(urllib.request.Request(url, None, header, proxy))

我的脚本确实是这样的:

HEADER = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7'}
URL = "https://www.website.php"
PROXY = {"https": "https//59.110.7.190:1080"}

#response.close() Is this even necessary

page_html = response.read()  # With Method 1 I also tried response.text which resulted in "str is not callable"
response.close()
page_soup = soup(page_html, "html.parser")

adresses = page_soup.findAll("li", {"class":"list-group-item"})

for address in adresses:
    try:
        #parsing the html
    except (TypeError):
        f.write("invalid data" + "\n")
time.sleep(random.randint(1, 10))

我通常遇到的错误如下:

requests.exceptions.ProxyError: HTTPSConnectionPool(host='www.firmendb.de', port=443): Max retries exceeded with url: /[website.php] (Caused by ProxyError('Cannot connect to proxy.', NewConnectionError(': Failed to establish a new connection: [Errno 11001] getaddrinfo failed',)))

Process finished with exit code 1

我认为我搞乱了脚本的代理部分。在我尝试实现之前它确实有效。因为我之前从未这样做过，所以我的主要问题是，代理部分正确吗？我从以下网站获得代理:https://free-proxy-list.net/

如何从这些列表中选择代理？
如何连接到代理？
对使用代理提供商有什么建议吗？
对我的剧本有什么建议吗？

最佳答案

如果您不介意使用 API，我可以推荐 https://gimmeproxy.com事实证明，这是工作代理的可靠来源。

甚至还有一个 python 包装器:https://github.com/ericfourrier/gimmeproxy-api

结果将是这样的:

{
  "supportsHttps": true,
  "protocol": "socks5",
  "ip": "19.162.12.82",
  "port": "915",
  "get": true,
  "post": true,
  "cookies": true,
  "referer": true,
  "user-agent": true,
  "anonymityLevel": 1,
  "websites": {
    "example": true,
    "google": false,
    "amazon": true
  },
  "country": "US",
  "tsChecked": 1517952910,
  "curl": "socks5://19.162.12.82:915",
  "ipPort": "19.162.12.82:915",
  "type": "socks5",
  "speed": 17.7,
  "otherProtocols": {}
}

关于python - 如何在 Python/BS4 中向我的网页抓取脚本添加代理和 header ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46682144/

28

4

0

文章推荐： python - 将文件粘贴到 python 中的新文件中

文章推荐： c# - 从元素与纯内容混合的 XElement 中读取数据

文章推荐： php - Laravel 5.2 Eloquent 。查询效果不佳

header - 在ANTLR中使用@header
我在让“@header”或任何其他@规则在ANTLR中工作时遇到麻烦。具有非常基本的语法，如下所示: grammar test; options { language = CSharp2;
header - header 来源与主机
我对来源和寄宿有疑问我有一个ajax页面“Page A”，它将称为ajax提要“Page B” 我看到来自ajax调用的“页面B”的请求 header 具有源“http://mydomain.com
python - 用带有两个 header 信息的单个 header 替换多个数据帧 header
我在 pandas 中使用了数据透视表并获得了所需的数据框格式，但现在我有两行标题。数据透视表后的结果数据框如下: scenario Actual Plan
python - 用带有两个 header 信息的单个 header 替换多个数据帧 header
我在 pandas 中使用了数据透视表并获得了所需的数据框格式，但现在我有两行标题。数据透视表后的结果数据框如下: scenario Actual Plan
c - 如何在主机将它们发送到网络之前修改数据包 header (IP header ，TCP header )
我想在主机将它们发送到网络之前修改数据包头(IP 头、TCP 头)。例如，如果我使用 firefox 进行浏览，那么我想拦截所有来自 firefox 的数据包并修改 IP/TCP header ，然
html - header 内容包装到#header 但#header 显示为空
我的 header 内容被包装到#header 中，但是当我设置边框显示结构时，它显示我的#header 的内容出现在#header 本身之后。可能是什么问题？这是我的代码: #header { bo
browser-cache - 浏览器如何处理过期 header 、缓存控制 header 、最后修改 header ？
我是一名 Web 开发人员，使用过 PHP 和 .NET。有一年多的 Web 工作经验，我一直无法彻底了解浏览器缓存功能，希望这里的 Web Gurus 可以帮助我。我心中的问题是: 浏览器实际上是如
C++ 将多个 header 连接到一个 header 并使用这些 header 函数
伙计们，我有一个问题，我不知道如何在一个 header 中连接多个 header ，我们称它为“主 header ”并使用该 header 中的函数，例如 // A.h #include class
c# - 我应该使用哪个 header ？ XMLHTTPRequest header 还是 SOAP header ？
我有一个包含 SOAP 消息的 XMLHTTPRequest。我想添加用于标识消息并将由 C# Web 服务使用的 guid。 GUID 的目标是识别特定用户，并应护送所有用户请求以在服务器上进行身
javascript - 当到达当前卡住的 header 时，用第二个 header 替换粘性 header
我一直在阅读粘性标题，这是我目前所发现的。第一个粘性 header 效果很好，但是当它遇到第一个 header 时，我如何向上滚动第一个 header 并使第二个 header 卡住？ http://
objective-c - UICollectionView:自定义UICollectionViewFlowLayout header (多个 header 和 header 位置)
我想将当前基于 TableView 的数据网格转换为新的 UICollectionView 类。这就是我当前的网格的样子: 我的网格有两个标题: 年份(2006a、2007a 等)和类型(“收入”
header - Apollo 服务器设置响应 header
我目前正在使用 Apollo 服务器。我正在尝试在响应 header 中设置一个属性。并且此属性是从客户端 graphQL 请求 header 中检索的。我在网上查了一下。并看到了诸如使用插件或扩展
http-headers - 如何为转发的请求设置 header
我的 Controller 的方法需要设置一个标题，例如X-Authorization .创建新对象( store Action )后，我执行转发以显示新创建的对象( show Action ): $
header - 对以太网帧的 header 大小感到困惑
我正在研究一些关于 VLAN 的事情，发现了 VLAN 标签和 header 。如果我们有标准 802.3 以太网帧的 MTU(1518 字节)， header 802.3 中包含什么？另外，
http-headers - 我们如何放心地传递多个 header ？
我是放心和 Java 的新手，我正在尝试做一个非常基本的测试来检查 API 的响应是否为 200 ok。谁能告诉我我需要在下面的脚本中更改什么才能传递多个 header Id、Key 和 ConId
header - zlib header 是什么样的？
在我的项目中，我需要知道 zlib header 是什么样的。我听说它相当简单，但我找不到 zlib header 的任何描述。例如，它是否包含魔数(Magic Number)？最佳答案 zlib
http-headers - 根据条件发送不同的HTTP header
我正在使用 JMeter 测试 HTTP 服务器，该服务器接受并验证 APIKey 并在成功时返回一个有时限的 token 。如果我有 token ，我想发送一个 token ；如果没有，我想发送一个
header - 以太网 header 是什么样的？
以太网 header 是什么样的？是吗: 1|2|3|4|5|6|7|8|9|10|11|12|13|14|15|16|17|18|19|20|21|22|23|24|25|26|27|28|29|
header - 如何测试 CORS header
我们的应用程序支持 CORS 配置 header 。我在两个不同的主机上分别配置了 testApp。两种设置都相互独立工作。host1 上的应用程序配置有 CORS header Access-Con
c++ header 本身不包含依赖 header
tlhelp32.h 不包含 windows.h 本身是有原因的吗？我一直在与大量的编译器错误作斗争，因为我在包含 tlhelp32.h 之后包含了 windows.h。这是设计决定还是出于什么原因？

首页

博学

6Ren·AI

商城

python - 如何在 Python/BS4 中向我的网页抓取脚本添加代理和 header ？