gpt4 book ai didi

python - 使用 python Web 抓取数据?

转载 作者:太空狗 更新时间:2023-10-29 15:33:09 25 4
gpt4 key购买 nike

我刚开始学习使用 Python 进行网络抓取。但是,我已经遇到了一些问题。

我的目标是从 fishbase.org ( http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=salmon ) 中抓取不同金枪鱼物种的名称

问题:我无法提取所有物种名称。

这是我目前所拥有的:

import urllib2
from bs4 import BeautifulSoup

fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Tuna'
page = urllib2.urlopen(fish_url)

soup = BeautifulSoup(html_doc)

spans = soup.find_all(

从这里开始,我不知道如何提取物种名称。我想过使用正则表达式(即 soup.find_all("a", text=re.compile("\d+\s+\d+")) 来捕获标签内的文本...

我们将不胜感激任何意见!

最佳答案

您不妨利用以下事实:所有科学名称(并且只有科学名称)都在 <i/> 中。标签:

scientific_names = [it.text for it in soup.table.find_all('i')]

使用 BS 和 RegEx 是解析网页的两种不同方法。前者存在,因此您不必为后者操心。

您应该仔细阅读 BS 的实际作用,看来您低估了它的效用。

关于python - 使用 python Web 抓取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9562963/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com