gpt4 book ai didi

html - 使用 BeautifulSoup 获取链接的标题

转载 作者:行者123 更新时间:2023-12-01 13:36:53 26 4
gpt4 key购买 nike

正如标题所说,我正在尝试获取位于单元格内部的链接的标题。 This is我从中获取东西的网站。我也看到了this问题,这是我最后几行代码的来源,但它并没有为我完成

我正在尝试获取第一列(或每行的第一个单元格)内的链接标题。我可以获取单元格中的所有 HTML 代码,但我无法确定仅获取标题。这是我到目前为止想出的

URL = 'http://theescapists.gamepedia.com/Crafting'
get_page = requests.get(URL)
plain_text = get_page.text
soup = BeautifulSoup(plain_text, 'html.parser')


for table_tag in soup.find_all('table'):
for each_row in table_tag.find_all('tr'):
links = each_row.find('a', href=True)
title = links.get('title')
print(title)
print('')

如果我只打印 links 部分,每个单元格中的所有代码都会被打印出来。

当我打印 title 部分时,我收到一个错误,提示 AttributeError: 'NoneType' object has no attribute 'get',这让我很困惑,因为我已经完成 print(type(links)) 后,我得到一个bs4.element.Tag返回,这让我觉得我应该能够查看title` 标签。

作为回顾(这似乎有点长),我想从每个表中每个链接的第一个单元格中获取标题标签

最佳答案

tr 标签可以包含 th 标签,而没有 a 标签,你应该检查 a 标签在您访问它之前:

In [100]: for table_tag in soup.find_all('table'):
...: for each_row in table_tag.find_all('tr'):
...: links = each_row.find('a', href=True)
...: if links: # check before you access
...: title = links.get('title')
...: print(title)
...: print('')

关于html - 使用 BeautifulSoup 获取链接的标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42776834/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com