- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我已经在这工作了 12 小时,我希望有人可以帮我一把。
这是我的代码,我想要的只是在页面爬行时获取页面上每个链接的 anchor 和 url。
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.utils.url import urljoin_rfc
from scrapy.utils.response import get_base_url
from urlparse import urljoin
#from scrapy.item import Item
from tutorial.items import DmozItem
class HopitaloneSpider(CrawlSpider):
name = 'dmoz'
allowed_domains = ['domain.co.uk']
start_urls = [
'http://www.domain.co.uk'
]
rules = (
#Rule(SgmlLinkExtractor(allow='>example\.org', )),
Rule(SgmlLinkExtractor(allow=('\w+$', )), callback='parse_item', follow=True),
)
user_agent = 'Mozilla/5.0 (Windows; U; MSIE 9.0; WIndows NT 9.0; en-US))'
def parse_item(self, response):
#self.log('Hi, this is an item page! %s' % response.url)
hxs = HtmlXPathSelector(response)
#print response.url
sites = hxs.select('//html')
#item = DmozItem()
items = []
for site in sites:
item = DmozItem()
item['title'] = site.select('a/text()').extract()
item['link'] = site.select('a/@href').extract()
items.append(item)
return items
最佳答案
response.body 应该是你想要的
def parse_item(self, response):
#self.log('Hi, this is an item page! %s' % response.url)
body = response.body
item = ....
关于xpath - 如何使用 hxs.select 在 scrapy 中获取整个文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13435620/
我知道 hxs 文件是编译后的帮助文件,是 .chm 文件的替代品,但我似乎无法打开它们。 我读到您使用帮助浏览器 dexplore.exe 阅读它们,该文件位于此处: C:\Program File
关闭。这个问题需要更多focused .它目前不接受答案。 想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post . 2年前关闭。 Improve this questi
我正在尝试从 here 中获取赔率. 目前只是尝试使用以下蜘蛛记录结果: def parse(self, response): log.start("LogFile.txt",
我已经在这工作了 12 小时,我希望有人可以帮我一把。 这是我的代码,我想要的只是在页面爬行时获取页面上每个链接的 anchor 和 url。 from scrapy.contrib.spiders
我是这个领域的新手,我需要更多信息。我在互联网上找不到任何信息。例如现在我使用这个函数 hxs.select('//div[@id="CategoryBreadcrumb"]//text()').ex
我已经启动了 Scrapy shell 并成功地 ping 维基百科。 scrapy shell http://en.wikipedia.org/wiki/Main_Page 我相信这一步是正确的,从
首先,我遵循以下教程:http://doc.scrapy.org/en/0.16/intro/tutorial.html . 我跑: scrapy shell http://www.dmoz.org/
我是一名优秀的程序员,十分优秀!