gpt4 book ai didi

python - 我将如何使用 BeautifulSoup 的索引来抓取多个表?

转载 作者:行者123 更新时间:2023-11-28 02:23:01 28 4
gpt4 key购买 nike

我正在尝试抓取此 URL,因此我只能抓取某些索引。在这种情况下,我展示了我可以抓取索引 6 的示例,这将给我任何以/wiki/开头的 url。这将给我所有以 A 开头的 TLD。我想获取我发现与我的任务相关的所有索引。

截至目前,我已尝试将它们列为 [6、7、8 等] 并在引号中列出。虽然我在列表方面的工作不多,但我需要花更多时间学习。

import requests
from bs4 import BeautifulSoup

page = requests.get('https://en.wikipedia.org/wiki/List_of_Internet_top-level_domains')
soup = BeautifulSoup(page.text, 'lxml')

table = soup.findAll('table')[6]
for record in table.findAll('tr'):
for data in record.findAll('td'):
for link in data.select("a[href^='/wiki/.']"):
links = link.contents[0]
print(links)

但是,由于我是编程新手,所以我不确定如何添加除 6 之外的多个索引。这些是我收到的错误:

======= RESTART: /run/media/sean/The Continuum/Python/wikinamelist.py =======
Traceback (most recent call last):
File "/run/media/sean/The Continuum/Python/wikinamelist.py", line 7, in <module>
table_data = soup.find_all('table')["6", "7"]
TypeError: list indices must be integers or slices, not tuple
>>>
======= RESTART: /run/media/sean/The Continuum/Python/wikinamelist.py =======
Traceback (most recent call last):
File "/run/media/sean/The Continuum/Python/wikinamelist.py", line 7, in <module>
table_data = soup.find_all('table')[6, 7];
TypeError: list indices must be integers or slices, not tuple
>>>
======= RESTART: /run/media/sean/The Continuum/Python/wikinamelist.py =======
Traceback (most recent call last):
File "/run/media/sean/The Continuum/Python/wikinamelist.py", line 7, in <module>
table_data = soup.find_all('table')[6, 7, 8];
TypeError: list indices must be integers or slices, not tuple

正如您在上面看到的,我尝试了多种错误消息中显示的方法。

如有任何反馈,我们将不胜感激,谢谢!

最佳答案

您可以使用逗号分隔的 nth-of-type

table:nth-of-type(6), table:nth-of-type(7), table:nth-of-type(8)

所以,

tables = soup.select('table:nth-of-type(6), table:nth-of-type(7), table:nth-of-type(8)')

然后

for table in table:

你也可以压缩

links = [item['href'] for item in soup.select("table:nth-of-type(6) [href^='/wiki/.'], table:nth-of-type(7) [href^='/wiki/.'], table:nth-of-type(8) [href^='/wiki/.']")

您也可以将 table 的类型选择器替换为类选择器,例如.wikitable。这样会更快。


pd.read_html:

如果 pd.read_html 返回表格,那么您只需索引/切入该列表即可获得所需的表格。

关于python - 我将如何使用 BeautifulSoup 的索引来抓取多个表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56262867/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com