gpt4 book ai didi

python - 使用 BeautifulSoup 提取链接的标题

转载 作者:太空狗 更新时间:2023-10-30 02:59:00 24 4
gpt4 key购买 nike

我正在尝试使用 BeautifulSoup 提取链接的标题。我正在使用的代码如下:

url = "http://www.example.com"
source_code = requests.get(url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, "lxml")
for link in soup.findAll('a', {'class': 'a-link-normal s-access-detail-page a-text-normal'}):
title = link.get('title')
print title

现在,示例 link 元素包含以下内容:

<a class="a-link-normal s-access-detail-page a-text-normal" href="http://www.amazon.in/Introduction-Computation-Programming-Using-Python/dp/8120348664" title="Introduction To Computation And Programming Using Python"><h2 class="a-size-medium a-color-null s-inline s-access-title a-text-normal">Introduction To Computation And Programming Using <strong>Python</strong></h2></a>

但是,在我运行上面的代码后,什么也没有显示。如何提取存储在 link 中的 anchor 标记的 title 属性中的值?

最佳答案

好吧,看来你在 s-access-detail-pagea-text-normal 之间放了两个空格,这反过来又无法找到任何匹配的链接。尝试使用正确的空格数,然后打印找到的链接数。此外,您还可以打印标签本身 - print link

import requests
from bs4 import BeautifulSoup

url = "http://www.amazon.in/s/ref=nb_sb_noss_1?url=search-alias%3Daps&field-keywords=python"
source_code = requests.get(url)
plain_text = source_code.content
soup = BeautifulSoup(plain_text, "lxml")
links = soup.findAll('a', {'class': 'a-link-normal s-access-detail-page a-text-normal'})
print len(links)
for link in links:
title = link.get('title')
print title

关于python - 使用 BeautifulSoup 提取链接的标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32542549/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com