- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我过去曾几次使用BeautifulSoup4和Python来解析本地html文件。现在我想使用代理抓取网站。 (总共需要400个请求/100个请求后IP确实被阻止)
在使用普通的“ sleep ”减慢我的脚本速度后,我想使用代理,但我以前从未这样做过,并且这里确实需要一些帮助。在 Stack Overflow 问题的帮助下,我尝试了两种方法:
方法一
此方法确实适用于其他网站,但不下载数据。当我“打印”收到的数据时,它确实打印“响应[200]”。当我在真实网站上尝试此方法时,它确实返回错误:“URL 超出了最大重试次数:”我怀疑代理没有被正确处理。当我尝试读取 html 时,出现以下错误。
page_html = response.read()
AttributeError: 'Response' object has no attribute 'read'response = requests.get(URL, proxies=PROXY, headers=HEADER)
方法2
我可以下载另一个网页,但无法从原始网页下载(这阻止了我)。我认为脚本有错误并且代理处理不正确。要么将真实IP发送到网站,要么无法连接到代理:
response = urllib.request.urlopen(urllib.request.Request(url, None, header, proxy))
我的脚本确实是这样的:
HEADER = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7'}
URL = "https://www.website.php"
PROXY = {"https": "https//59.110.7.190:1080"}
#response.close() Is this even necessary
page_html = response.read() # With Method 1 I also tried response.text which resulted in "str is not callable"
response.close()
page_soup = soup(page_html, "html.parser")
adresses = page_soup.findAll("li", {"class":"list-group-item"})
for address in adresses:
try:
#parsing the html
except (TypeError):
f.write("invalid data" + "\n")
time.sleep(random.randint(1, 10))
我通常遇到的错误如下:
requests.exceptions.ProxyError: HTTPSConnectionPool(host='www.firmendb.de', port=443): Max retries exceeded with url: /[website.php] (Caused by ProxyError('Cannot connect to proxy.', NewConnectionError(': Failed to establish a new connection: [Errno 11001] getaddrinfo failed',)))
Process finished with exit code 1
我认为我搞乱了脚本的代理部分。在我尝试实现之前它确实有效。因为我之前从未这样做过,所以我的主要问题是,代理部分正确吗?我从以下网站获得代理:https://free-proxy-list.net/
最佳答案
如果您不介意使用 API,我可以推荐 https://gimmeproxy.com事实证明,这是工作代理的可靠来源。
甚至还有一个 python 包装器:https://github.com/ericfourrier/gimmeproxy-api
结果将是这样的:
{
"supportsHttps": true,
"protocol": "socks5",
"ip": "19.162.12.82",
"port": "915",
"get": true,
"post": true,
"cookies": true,
"referer": true,
"user-agent": true,
"anonymityLevel": 1,
"websites": {
"example": true,
"google": false,
"amazon": true
},
"country": "US",
"tsChecked": 1517952910,
"curl": "socks5://19.162.12.82:915",
"ipPort": "19.162.12.82:915",
"type": "socks5",
"speed": 17.7,
"otherProtocols": {}
}
关于python - 如何在 Python/BS4 中向我的网页抓取脚本添加代理和 header ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46682144/
我在让“@header”或任何其他@规则在ANTLR中工作时遇到麻烦。具有非常基本的语法,如下所示: grammar test; options { language = CSharp2;
我对来源和寄宿有疑问 我有一个ajax页面“Page A”,它将称为ajax提要“Page B” 我看到来自ajax调用的“页面B”的请求 header 具有源“http://mydomain.com
我在 pandas 中使用了数据透视表并获得了所需的数据框格式,但现在我有两行标题。数据透视表后的结果数据框如下: scenario Actual Plan
我在 pandas 中使用了数据透视表并获得了所需的数据框格式,但现在我有两行标题。数据透视表后的结果数据框如下: scenario Actual Plan
我想在主机将它们发送到网络之前修改数据包头(IP 头、TCP 头)。 例如,如果我使用 firefox 进行浏览,那么我想拦截所有来自 firefox 的数据包并修改 IP/TCP header ,然
我的 header 内容被包装到#header 中,但是当我设置边框显示结构时,它显示我的#header 的内容出现在#header 本身之后。可能是什么问题?这是我的代码: #header { bo
我是一名 Web 开发人员,使用过 PHP 和 .NET。有一年多的 Web 工作经验,我一直无法彻底了解浏览器缓存功能,希望这里的 Web Gurus 可以帮助我。我心中的问题是: 浏览器实际上是如
伙计们,我有一个问题,我不知道如何在一个 header 中连接多个 header ,我们称它为“主 header ”并使用该 header 中的函数,例如 // A.h #include class
我有一个包含 SOAP 消息的 XMLHTTPRequest。 我想添加用于标识消息并将由 C# Web 服务使用的 guid。 GUID 的目标是识别特定用户,并应护送所有用户请求以在服务器上进行身
我一直在阅读粘性标题,这是我目前所发现的。第一个粘性 header 效果很好,但是当它遇到第一个 header 时,我如何向上滚动第一个 header 并使第二个 header 卡住? http://
我想将当前基于 TableView 的数据网格转换为新的 UICollectionView 类。 这就是我当前的网格的样子: 我的网格有两个标题: 年份(2006a、2007a 等)和 类型(“收入”
我目前正在使用 Apollo 服务器。我正在尝试在响应 header 中设置一个属性。并且此属性是从客户端 graphQL 请求 header 中检索的。 我在网上查了一下。并看到了诸如使用插件或扩展
我的 Controller 的方法需要设置一个标题,例如X-Authorization .创建新对象( store Action )后,我执行转发以显示新创建的对象( show Action ): $
我正在研究一些关于 VLAN 的事情,发现了 VLAN 标签 和 header 。 如果我们有标准 802.3 以太网帧 的 MTU(1518 字节), header 802.3 中包含什么? 另外,
我是放心和 Java 的新手,我正在尝试做一个非常基本的测试来检查 API 的响应是否为 200 ok。 谁能告诉我我需要在下面的脚本中更改什么才能传递多个 header Id、Key 和 ConId
在我的项目中,我需要知道 zlib header 是什么样的。我听说它相当简单,但我找不到 zlib header 的任何描述。 例如,它是否包含魔数(Magic Number)? 最佳答案 zlib
我正在使用 JMeter 测试 HTTP 服务器,该服务器接受并验证 APIKey 并在成功时返回一个有时限的 token 。如果我有 token ,我想发送一个 token ;如果没有,我想发送一个
以太网 header 是什么样的? 是吗: 1|2|3|4|5|6|7|8|9|10|11|12|13|14|15|16|17|18|19|20|21|22|23|24|25|26|27|28|29|
我们的应用程序支持 CORS 配置 header 。我在两个不同的主机上分别配置了 testApp。两种设置都相互独立工作。host1 上的应用程序配置有 CORS header Access-Con
tlhelp32.h 不包含 windows.h 本身是有原因的吗?我一直在与大量的编译器错误作斗争,因为我在包含 tlhelp32.h 之后包含了 windows.h。这是设计决定还是出于什么原因?
我是一名优秀的程序员,十分优秀!