gpt4 book ai didi

xpath - 如何使用 hxs.select 在 scrapy 中获取整个文档

转载 作者:行者123 更新时间:2023-12-03 16:06:22 26 4
gpt4 key购买 nike

我已经在这工作了 12 小时,我希望有人可以帮我一把。

这是我的代码,我想要的只是在页面爬行时获取页面上每个链接的 anchor 和 url。

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.utils.url import urljoin_rfc
from scrapy.utils.response import get_base_url
from urlparse import urljoin

#from scrapy.item import Item
from tutorial.items import DmozItem

class HopitaloneSpider(CrawlSpider):
name = 'dmoz'
allowed_domains = ['domain.co.uk']
start_urls = [
'http://www.domain.co.uk'
]

rules = (
#Rule(SgmlLinkExtractor(allow='>example\.org', )),
Rule(SgmlLinkExtractor(allow=('\w+$', )), callback='parse_item', follow=True),
)

user_agent = 'Mozilla/5.0 (Windows; U; MSIE 9.0; WIndows NT 9.0; en-US))'

def parse_item(self, response):
#self.log('Hi, this is an item page! %s' % response.url)

hxs = HtmlXPathSelector(response)
#print response.url
sites = hxs.select('//html')
#item = DmozItem()
items = []

for site in sites:

item = DmozItem()
item['title'] = site.select('a/text()').extract()
item['link'] = site.select('a/@href').extract()

items.append(item)

return items

我做错了什么......我的眼睛现在受伤了。

最佳答案

response.body 应该是你想要的

def parse_item(self, response):
#self.log('Hi, this is an item page! %s' % response.url)

body = response.body
item = ....

关于xpath - 如何使用 hxs.select 在 scrapy 中获取整个文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13435620/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com