gpt4 book ai didi

python - 从网站上的表格中获取数据

转载 作者:行者123 更新时间:2023-12-01 09:26:19 27 4
gpt4 key购买 nike

我需要有关从网页上的表格中提取或废弃数据的帮助。我用的是 BeautifulSoup 。无法提取表号为 的表。 6.如有任何帮助,我们将不胜感激:

需要表 - 6 中的所有行数据。一个网页中有多个表格,但我只需要合规性信息的数据,但不知道该怎么做。

URL 为 here

我的代码如下:

link = ["http://ec.europa.eu/environment/ets/ohaDetails.do?returnURL=&languageCode=en&accountID=&registryCode=&buttonAction=all&action=&account.registryCode=&accountType=&identifierInReg=&accountHolder=&primaryAuthRep=&installationIdentifier=&installationName=&accountStatus=&permitIdentifier=&complianceStatus=&mainActivityType=-1&searchType=oha&resultList.currentPageNumber=1&nextList=Next%C2%A0%3E&selectedPeriods="]

for pagenum, links in enumerate(link[start:end]):

print(links)
r = requests.get(links)

time.sleep(random.randint(2,5))

soup = BeautifulSoup(r.content,"lxml")

tree = html.fromstring(str(soup))

value = []

data_block = soup.find_all("table", {"class": "bordertb"})

print (data_block)

output = []

for item in data_block:

table_data = item.find_all("td", {"class": "tabletitle"})[0].table

value.append([table_data])

print (value)


with open("Exhibit_2_EXP_data.tsv", "wb") as outfile:

outfile = unicodecsv.writer(outfile, delimiter="\t")

outfile.writerow(["Data_Output"])

for item in value:

outfile.writerow(item)

最佳答案

试试这个。下面的脚本应该从该表中获取内容。为了使其具体化,您应该从上一个表开始操作(因为它有一个唯一的 ID),然后使用适当的方法您可以访问所需表的内容。以下是我为实现相同目标所做的事情:

import requests
from bs4 import BeautifulSoup

url = "http://ec.europa.eu/environment/ets/ohaDetails.do?returnURL=&languageCode=en&accountID=&registryCode=&buttonAction=all&action=&account.registryCode=&accountType=&identifierInReg=&accountHolder=&primaryAuthRep=&installationIdentifier=&installationName=&accountStatus=&permitIdentifier=&complianceStatus=&mainActivityType=-1&searchType=oha&resultList.currentPageNumber=1&nextList=Next%C2%A0%3E&selectedPeriods="

r = requests.get(url)
soup = BeautifulSoup(r.text,"lxml")
for items in soup.find(id="tblInstallationContacts").find_next_sibling().find_all("tr")[:-5]:
data = [item.get_text(strip=True) for item in items.find_all("td")]
print(data)

关于python - 从网站上的表格中获取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50363291/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com