gpt4 book ai didi

python - 使用 Python 的网页抓取容器

转载 作者:行者123 更新时间:2023-12-01 08:51:34 24 4
gpt4 key购买 nike

我正在尝试从此网页上的容器中抓取内容:https://www.check24.de/handytarife/vergleich?activeForm=sim

我通常使用 beautifulsoup 进行网页抓取,但在这种情况下,我发现它不适用于该网站。当我运行“汤”时,我仅获得网站架构的详细信息,而不是网站上可用容器的内容。

page_link = 'check24.de/handytarife/vergleich?activeForm=sim' 
page_response = requests.get(page_link, timeout=5, verify=False, headers={'User-Agent': 'Mozilla/5.0'})
soup = BeautifulSoup(page_response.text,'lxml')

你知道有什么好的 Python 库能够完成我想做的事情吗?

最好,山姆

最佳答案

您尝试仅请求一个 HTML 页面,该页面更像是原始数据的空漂亮框架。所有数据均来自XHR

您可以获取JSON格式的所有数据,如下所示:

r = requests.get('https://mobilfunk.check24.de/ajax/result/collection/sim?network_tmobile=yes&network_vodafone=yes&network_o2=yes&data_included=2000&minutes_included=all&select_contract=-24&young_tariff=no&rnp=egal&data_speed=0&lte=no&with_data_tariffs=no&with_high_rejection_rate=all&fixed_traffic_automatic=egal&sms_included=all&tid=CH24_MF_Default').json()

由于您没有告诉您到底需要抓取什么,因此您可以通过以下方式获取所有名称:

for item in r['rows']:
print(item['tariff']['names']['resultlist'])

关于python - 使用 Python 的网页抓取容器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53081429/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com