gpt4 book ai didi

python - 使用 beautifulsoup 抓取公交车站网页

转载 作者:行者123 更新时间:2023-12-02 18:57:25 25 4
gpt4 key购买 nike

我正在尝试网络抓取给定线路的公交车站名称,这是 212 路 https://www.m2.rozkladzik.pl/warszawa/rozklad_jazdy.html?l=212 的示例页面。我想要输出两个列表,一个列表包含一个方向的公交车站名称,另一个列表包含另一个方向。 (在网页上可以清楚地看到)。我设法将所有名称放入一个列表中

import requests
from bs4 import BeautifulSoup


def download_bus_schedule(bus_number):
URL = "http://www.m2.rozkladzik.pl/warszawa/rozklad_jazdy.html?l=" + bus_number
r = requests.get(URL)
soup = BeautifulSoup(r.content,
'html5lib')
print(soup.prettify())
all_bus_stops = []
table = soup.find_all('a')
for element in table:
if element.get_text() in all_bus_stops:
continue
else:
all_bus_stops.append(element.get_text())
return all_bus_stops

print(download_bus_schedule('212'))

我想解决方案是以某种方式将汤分成两部分。

最佳答案

您可以使用bs4.element.Tag.findAll方法:

import requests
from bs4 import BeautifulSoup


def download_bus_schedule(bus_number):
all_bus_stops = []
URL = "http://www.m2.rozkladzik.pl/warszawa/rozklad_jazdy.html?l=" + bus_number
r = requests.get(URL)
soup = BeautifulSoup(r.content, 'html.parser')
for s in soup.select(".holo-list"):
bus_stops = []
for f in s.findAll("li"):
if f.text not in bus_stops:
bus_stops.append(f.text)
all_bus_stops.append(bus_stops)
return all_bus_stops

print(download_bus_schedule('212'))

输出:

[['Pl.Hallera', 'Pl.Hallera', 'Darwina', 'Namysłowska', 'Rondo Żaba', 'Rogowska', 'Kołowa', 'Dks Targówek', 'Metro Targówek Mieszkaniowy', 'Myszkowska', 'Handlowa', 'Metro Trocka', 'Bieżuńska', 'Jórskiego', 'Łokietka', 'Samarytanka', 'Rolanda', 'Żuromińska', 'Targówek-Ratusz', 'Św.Wincentego', 'Malborska', 'Ch Targówek'], 
['Ch Targówek', 'Ch Targówek', 'Malborska', 'Św.Wincentego', 'Targówek-Ratusz', 'Żuromińska', 'Gilarska', 'Rolanda', 'Samarytanka', 'Łokietka', 'Jórskiego', 'Bieżuńska', 'Metro Trocka', 'Metro Trocka', 'Metro Trocka', 'Handlowa', 'Myszkowska', 'Metro Targówek Mieszkaniowy', 'Dks Targówek', 'Kołowa', 'Rogowska', 'Rondo Żaba', '11 Listopada', 'Bródnowska', 'Szymanowskiego', 'Pl.Hallera', 'Pl.Hallera']]

关于python - 使用 beautifulsoup 抓取公交车站网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66011014/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com