gpt4 book ai didi

python - 在抓取网站时如何让我的代码读取所有表格?

转载 作者:行者123 更新时间:2023-12-01 19:49:14 25 4
gpt4 key购买 nike

我对Python非常陌生,这个网站在这学期给了我很多帮助,我希望你们能再次帮助我。

我需要从 https://money.cnn.com/data/hotstocks/ 中抓取表格。

这些表格是最活跃的、上涨的和下跌的。

现在我能够让这段代码为我工作

     import requests
from bs4 import BeautifulSoup

url = 'http://money.cnn.com/data/hotstocks/index.html'
response = requests.get(url)
html = response.content

soup = BeautifulSoup(html)

all_stock = soup.find('div', attrs={'id':'wsod_hotStocks'})

table = all_stock.find('table',attrs={'class':'wsod_dataTable wsod_dataTableBigAlt' })

for row in table.findAll('tr'):
for cell in row.findAll('td'):
print(cell.text)

但这只能让我获得最活跃的表格,我不确定需要做什么才能让我的代码获得网站上的其他两个表格。

如果您能了解我做错了什么以及如何解决它,我将不胜感激。

我不知道是否必须创建代码来抓取每个表,或者我是否可以调整我所拥有的内容。

[这是网站上的 HTML,这样你们就可以了解我在做什么。 1

enter image description here

最佳答案

实际上,您可以使用 pandas.read_html() 它将以良好的格式读取所有表格。

Note: it's will return tables as list. so you can access it as DataFrame with index such as print(df[0]) for example.

import pandas as pd

df = pd.read_html("https://money.cnn.com/data/hotstocks/")

print(df)

enter image description here

关于python - 在抓取网站时如何让我的代码读取所有表格?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61535636/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com