gpt4 book ai didi

Python Beautiful Soup 检索多个网页的信息

转载 作者:太空宇宙 更新时间:2023-11-04 05:52:10 25 4
gpt4 key购买 nike

所以我正在尝试学习抓取并想知道如何获取多个信息网页。我在 http://www.cfbstats.com/2014/player/index.html 上使用它.我想检索所有球队,然后进入每个球队链接,显示花名册,然后检索每个球员的信息,并在他们的个人链接中检索他们的统计数据。

我目前的情况是:

import requests
from bs4 import BeautifulSoup

r = requests.get("http://www.cfbstats.com/2014/player/index.html")
r.content
soup = BeautifulSoup(r.content)
links = soup.find_all("a")
for link in links:
college = link.text
collegeurl = link.get("http")
c = requests.get(collegeurl)
c.content
campbells = BeautifulSoup(c.content)

然后我就迷路了。我知道我必须在那里做一个嵌套的 for 循环,但我不想要某些链接,例如条款和条件以及社交网络。只是想获取玩家信息,然后获取与他们的名字相关联的统计数据。

最佳答案

您必须以某种方式过滤链接并限制您的 for循环到与团队相对应的那些。然后,你需要做同样的事情来获得玩家的链接。使用 Chrome 的“开发人员工具”(或浏览器的等效工具),我建议您(右键单击)检查您感兴趣的链接之一,然后尝试找到与其他不感兴趣的链接。例如,您将找到有关 CFBstats 页面的信息:

  1. 所有团队链接都在里面 <div class="conference"> .此外,它们都包含子字符串 "/team/"href .因此,您可以通过 xpath 指向包含在 div 中的链接。 ,或过滤具有此类子字符串的子字符串,或两者兼而有之。

  2. 在团队页面上,球员链接在 <td class="player-name"> 中.

这两个就够了。如果没有,你明白了要点。网络抓取是一门实验科学...

关于Python Beautiful Soup 检索多个网页的信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29736767/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com