gpt4 book ai didi

python - 如何使用 Python 从网页中提取表格的内容?

转载 作者:行者123 更新时间:2023-12-03 23:34:07 26 4
gpt4 key购买 nike

我在从网页中提取 kmz 和 zip 文件时需要帮助。以下代码能够提取表格,但不能提取表格内的文件和链接。我可以在我的代码中包含什么,以便输出表还包含链接和文件,而不仅仅是纯文本?

网页:

https://www.nhc.noaa.gov/gis/

代码:

import pandas as pd
url = 'https://www.nhc.noaa.gov/gis/'
result = pd.read_html(url)[0]
result

最佳答案

我会说使用 beautifulsoup (bs4) 而不是 pandas 来解析 html。

pip install beautifulsoup4 requests

然后就这么简单

import bs4
import requests

result = bs4.BeautifulSoup(requests.get('https://www.nhc.noaa.gov/gis/').content, features='html.parser')
for link in result.find('table').find_all('a'):
print(link.attrs['href'])

关于python - 如何使用 Python 从网页中提取表格的内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63215642/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com