gpt4 book ai didi

python - 使用 Wikipedia 上的 BeautifulSoup 进行网页抓取

转载 作者:太空宇宙 更新时间:2023-11-03 19:45:48 35 4
gpt4 key购买 nike

我是Python新手,尝试使用BeautifulSoup提取Wikipedia page上的所有火车站名称来自维基表的第三列。我已经尝试过下面的代码,但它似乎将每一行单元格作为一组信息返回

contentTable  = soup.find('table', { "class" : "wikitable"})
cols = contentTable.find_all('td')
for col in cols:
soup.find_all("a")
print(col.get_text())

输出如下,代表表中的 1 行:

CG2 
TE [a]
Changi Airport
樟宜机场
சாங்கி விமானநிலையம்
8 February 2002
Changi Airport

CGA
Changi
Singapore Changi Airport, Changi Airport PTB2 Bus Terminal

预期数据框列站名称:

Station Names
Jurong East
Bukit Batok
etc...

有人可以教我如何正确编码吗?谢谢!

最佳答案

您的程序只是简单地打印维基表上每个“td”标签的文本内容。

试试这个:

contentTable = soup.find('table', {"class": "wikitable"})
trs = contentTable.find_all('tr')

for tr in trs:
tds = tr.find_all('td')
for td in tds:
if tds.index(td) == 2:
print(td.get_text())

首先,它会抓取每一行,找到该行上的每个“td”标签,如果它是该行上的第三个“td”标签,则打印出其内容。

关于python - 使用 Wikipedia 上的 BeautifulSoup 进行网页抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60144115/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com