gpt4 book ai didi

xmlhttprequest - Scrapy - 如何从给定网站提取 XmlHttpRequests url?

转载 作者:行者123 更新时间:2023-12-04 08:27:01 29 4
gpt4 key购买 nike

我有兴趣只提取 XHR 的网址,而不是网页中的每个网址:
screenshot reference

这就是我提取页面中每个 url 的代码:

import scrapy
import json
from scrapy.selector import HtmlXPathSelector

from scrapy.spiders import CrawlSpider, Rule, Spider
from scrapy.linkextractors import LinkExtractor

class test(CrawlSpider):
name = 'test'
start_urls = ['SomeURL']
filename = 'test.txt'

rules = (

Rule(LinkExtractor(allow=('', )) ,callback='parse_item'),
)

def parse_item(self, response):
# hxs = HtmlXPathSelector(response)
with open ('test.txt', 'a') as f:
f.write (response.url + '\n' )

谢谢,

编辑:
您好,感谢您的评论。
经过更多研究,我发现了这个: Scraping ajax pages using python
我想要的是自动做这个答案。对于大量网页,我需要这样做,手动插入网址不是一种选择。
有没有办法做到这一点?监听站点的 XHR 请求并保存 url?

最佳答案

没有可靠的单一方法来获取网页的“AJAX URL”。网页可以使用任意数量的 AJAX URL(其中大多数不是您要查找的),并且它们可以以非常不同的方式触发。

此外,URL 本身很少有用,每个 URL 都可以返回任何类型的数据,通常是您感兴趣的数据。

您应该逐个网站地手动查找 AJAX URL。

关于xmlhttprequest - Scrapy - 如何从给定网站提取 XmlHttpRequests url?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35799204/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com