gpt4 book ai didi

Python scrapy 蜘蛛

转载 作者:太空宇宙 更新时间:2023-11-04 08:54:51 27 4
gpt4 key购买 nike

我想使用这个过滤器从网站 http://www.quoka.de/immobilien/bueros-gewerbeflaechen 抓取数据:

<a class="t-bld" rel="nofollow" href="javascript:qsn.set('classtype','of',1);">nur Angebote</a>

如何使用scrapy设置这个过滤器?

最佳答案

您可以使用Beautifulsoupurllib2解析特定的网站。这是您想要根据您编写的过滤器解析或抓取的数据的 python 实现。

from BeautifulSoup import BeautifulSoup
import urllib2

def main1(website):
data_list = []
web =urllib2.urlopen(website).read()
soup = BeautifulSoup(web)
description = soup.findAll('a', attrs={'rel':'nofollow'})
for de in description:
data_list.append(de.text)
return data_list

print main1("http://www.quoka.de/immobilien/bueros-gewerbeflaechen")

如果你想解析其他数据,比如下面的描述:

enter image description here

def main(website):
data_list = []
web =urllib2.urlopen(website).read()
soup = BeautifulSoup(web)
description = soup.findAll('div', attrs={'class':'description'})
for de in description:
data_list.append(de.text)
return data_list

print main("http://www.quoka.de/immobilien/bueros-gewerbeflaechen") #this is the data of each section

关于Python scrapy 蜘蛛,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31093670/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com