作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
只是尝试scrapy并尝试让一个基本的蜘蛛工作。我知道这可能是我缺少的东西,但我已经尝试了我能想到的一切。
我得到的错误是:
line 11, in JustASpider
sites = hxs.select('//title/text()')
NameError: name 'hxs' is not defined
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class JustASpider(BaseSpider):
name = "google.com"
start_urls = ["http://www.google.com/search?hl=en&q=search"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//title/text()')
for site in sites:
print site.extract()
SPIDER = JustASpider()
最佳答案
代码看起来很旧。我建议改用这些代码
from scrapy.spider import Spider
from scrapy.selector import Selector
class JustASpider(Spider):
name = "googlespider"
allowed_domains=["google.com"]
start_urls = ["http://www.google.com/search?hl=en&q=search"]
def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//title/text()').extract()
print sites
#for site in sites: (I dont know why you want to loop for extracting the text in the title element)
#print site.extract()
关于Scrapy HtmlXPathSelector,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12254740/
只是尝试scrapy并尝试让一个基本的蜘蛛工作。我知道这可能是我缺少的东西,但我已经尝试了我能想到的一切。 我得到的错误是: line 11, in JustASpider sites = h
很难说出这里问的是什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或言辞激烈,无法以目前的形式合理回答。如需帮助澄清此问题以便可以重新打开,visit the help center . 9年前关闭
我正在抓取一个网站,我需要从这个 HTML 文档中获取数值: 1.950 3.400 我需要同时提取 1.950 和 3.400,但当一个值仅在 a 中但另一个值也有跨度时,我不知道该怎么做。
我需要抓取一个使用 javascript 的页面。这就是我使用 Selenium 的原因。问题是 selenium 无法获取所需的数据。 我想使用 htmlXmlSelector 来尝试获取数据。 如
如何检索标记内包含的所有 HTML? hxs = HtmlXPathSelector(response) element = hxs.select('//span[@class="title"]/')
我是一名优秀的程序员,十分优秀!