gpt4 book ai didi

javascript - 使用 BeautifulSoup 抓取 JavaScript (ReactTable)

转载 作者:行者123 更新时间:2023-11-28 03:04:18 25 4
gpt4 key购买 nike

我想从 CDC 网站 ( https://www.cdc.gov/coronavirus/2019-ncov/index.html ) 中抓取与 COVID-19 相关的州级信息表。使用 BeautifulSoup 时,当我开始尝试从表中提取任何信息时遇到错误。任何帮助将不胜感激!

import pandas as pd
import requests
from bs4 import BeautifulSoup
from lxml import html

url = 'https://www.cdc.gov/coronavirus/2019-ncov/index.html'
html_content = requests.get(url).text
soup = BeautifulSoup(html_content, "lxml")

gdp_table = soup.find("table", attrs={"class": "ReactTable"})
gdp_table_data = gdp_table.tbody.find_all("div") # contains 2 rows

# Get all the headings of Lists
headings = []
for td in gdp_table_data[0].find_all("td"):
# remove any newlines and extra spaces from left and right
headings.append(td.b.text.replace('\n', ' ').strip())

print(headings)

如果您找不到我引用的表格,它位于网页的中间位置,位于美国 map 下方。如果标题为“States”,请点击旁边的“+”。

最佳答案

有一个生成网页的 CSV 文件。只需从 https://www.cdc.gov/coronavirus/2019-ncov/map-data-cases.csv 下载 CSV

关于javascript - 使用 BeautifulSoup 抓取 JavaScript (ReactTable),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60746151/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com