gpt4 book ai didi

python - 如何使用 beautifulsoup4 从网页中仅提取特定类型的链接

转载 作者:行者123 更新时间:2023-12-01 06:49:57 25 4
gpt4 key购买 nike

我正在尝试在充满链接的页面上提取特定链接。我需要的链接中包含“公寓”一词。

但无论我尝试什么,我提取的数据都比我需要的链接多得多。

<a href="https://www.website.com/en/ad/apartment/abcd123" title target="IWEB_MAIN">

如果有人能帮助我解决这个问题,我将不胜感激!另外,如果您有一个好的消息来源可以让我更好地了解这一点,我将加倍感激!

最佳答案

你可以使用正则表达式re。

import re
soup=BeautifulSoup(Pagesource,'html.parser')
alltags=soup.find_all("a",attrs={"href" : re.compile("apartment")})
for item in alltags:
print(item['href']) #grab href value

或者您可以使用 css 选择器

soup=BeautifulSoup(Pagesource,'html.parser')
alltags=soup.select("a[href*='apartment']")
for item in alltags:
print(item['href'])

详情参见官方文档Beautifulsoup

已编辑:

您需要首先考虑父 div,然后找到 anchor 标记。

import requests
from bs4 import BeautifulSoup
res=requests.get("https://www.immoweb.be/en/search/apartment/for-sale/leuven/3000")
soup = BeautifulSoup(res.text, 'html.parser')
for item in soup.select("div[data-type='resultgallery-resultitem'] >a[href*='apartment']"):
print(item['href'])

关于python - 如何使用 beautifulsoup4 从网页中仅提取特定类型的链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59066825/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com