gpt4 book ai didi

python - 使用 python bs4 基于标题的屏幕抓取

转载 作者:行者123 更新时间:2023-12-01 05:37:20 24 4
gpt4 key购买 nike

我在使用 bs4 进行屏幕抓取时遇到问题。以下是我的代码。

from bs4 import BeautifulSoup
import urllib2
url="http://www.99acres.com/property-in-velachery-chennai-south-ffid?"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
properties=soup.findAll('a',{'title':'Bedroom'})
for eachproperty in properties:
print eachproperty['href']+",", eachproperty.string

当我分析网站时,实际的标题结构如下

Velachery 的一卧室住宅公寓 所有 anchor 链接。但我没有得到任何输出,也没有错误。那么我如何告诉程序抓取标题包含单词“Bedroom”的所有数据?

希望我说清楚了。

最佳答案

您需要在此处使用正则表达式,因为您只想匹配标题中包含 Bedroom 的 anchor 链接,而不是整个标题:

import re

properties = soup.find_all('a', title=re.compile('Bedroom'))

这会为您提供的网址提供 47 个匹配项。

关于python - 使用 python bs4 基于标题的屏幕抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18613259/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com