gpt4 book ai didi

css - 为什么这个 XML 选择器不能从我试图抓取的网站中获取正确的数据?

转载 作者:行者123 更新时间:2023-11-28 06:24:58 25 4
gpt4 key购买 nike

我正在尝试抓取这个网站

http://www.gramfeed.com/instagram/tags#Andorra

并且正在尝试从帖子中获取所有数据。这就是我正在尝试的,但不幸的是 posts 没有得到所有帖子的列表。知道我做错了什么吗?谢谢!

class GramfeedSpider(Spider):
name = "gramfeed"
allowed_domains = ["gramfeed.com"]
start_urls = ["http://www.gramfeed.com/instagram/tags#Andorra"]

def parse(self, response):
"""
The lines below is a spider contract. For more info see:
http://doc.scrapy.org/en/latest/topics/contracts.html

@url http://www.gramfeed.com/instagram/tags#Andorra
@scrapes name
"""
sel = Selector(response)
posts = sel.xpath('//div[@id="content"]/div')
#posts = sel.xpath('//div[@id="content"]/div[@class="grid-cell"]')
#posts = sel.xpath('//div[@id="content"]/div[@onclick="showPhoto(0)"]')
print "@@@@@@"
print posts
print "@@@@@@"

最佳答案

这是一个非常动态的网页,结果是异步加载的,您需要一个 Javascript 引擎来在此页面上执行 JavaScript。你应该看看你是否可以用 scrapy-splash 解决它中间件或 selenium .

关于css - 为什么这个 XML 选择器不能从我试图抓取的网站中获取正确的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35349847/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com