gpt4 book ai didi

python - 使用 Python 从 cloudflare 站点抓取信息?

转载 作者:行者123 更新时间:2023-12-05 07:37:03 25 4
gpt4 key购买 nike

我在一家营销公司工作,我有数百封电子邮件需要从网页上编译和分类。我有一点 python 知识,所以我经常会制作一个简单的抓取工具来让生活更轻松,但 cloudflare 阻止了源中的电子邮件。

我怎样才能绕过这个?显然,使用这样的自动化工具比手动复制和粘贴所有电子邮件要快得多。这是我一直在测试它的程序:

import requests
import urllib
from bs4 import BeautifulSoup

website = ""
r = requests.get(website)
soup = BeautifulSoup(r.text,'html.parser')

numb = 799

while numb < 800:
numb += 1
print(r.status_code)
print(soup.prettify())

在源代码中,这取代了电子邮件:

<a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="">[email;protected]</a> 

有没有办法自动复制粘贴网页上的某一行?我已经在常规浏览器中检查了源代码,它显示了相同的内容。

感谢您的帮助。

最佳答案

我知道它是一个旧线程,但是这个函数将解码电子邮件字符串:

def cfDecodeEmail(encodedString):
r = int(encodedString[:2],16)
email = ''.join([chr(int(encodedString[i:i+2], 16) ^ r) for i in range(2, len(encodedString), 2)])
return email

关于python - 使用 Python 从 cloudflare 站点抓取信息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48878687/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com