gpt4 book ai didi

python - 我的 xpath 很好,但我对 scrapy 一无所知

转载 作者:行者123 更新时间:2023-11-28 16:30:11 27 4
gpt4 key购买 nike

我尝试用 scrapy 抓取一页。我用 FireXpath(一个 firefox 插件)找到了 xpath,它看起来不错。但是对于 Scrapy,我没有得到任何结果。

我的 python 程序如下所示:

#!/usr/bin/python -tt
# -*- coding: utf-8 -*-

from scrapy.selector import Selector
from scrapy.contrib.spiders import CrawlSpider
from datetime import datetime
from scrapy.spider import BaseSpider

class robtex(BaseSpider):
# Crawling Start
CrawlSpider.started_on = datetime.now()
# CrawlSpider
name = 'robtex'

DOWNLOAD_DELAY = 3
start_urls = [ "https://www.whois.com/en/advisory/dns/com/stackoverflow/whois.html"]


def parse(self, response):
# Selector
sel = Selector(response)
print sel.xpath(".//*[@id='datawhois']/div[2]/table[3]/tbody/tr[3]/td[2]/a/text()").extract()

如何解决?

提前致谢。

最佳答案

您只需要从 XPath 表达式中删除 tbody:

.//*[@id='datawhois']/div[2]/table[3]/tr[3]/td[2]/a/text()

演示:

$ scrapy shell https://www.robtex.com/en/advisory/dns/com/stackoverflow/whois.html
In [1]: response.xpath(".//*[@id='datawhois']/div[2]/table[3]/tbody/tr[3]/td[2]/a/text()").extract()
Out[1]: []

In [2]: response.xpath(".//*[@id='datawhois']/div[2]/table[3]/tr[3]/td[2]/a/text()").extract()
Out[2]: [u'STACKOVERFLOW.COM']

关于python - 我的 xpath 很好,但我对 scrapy 一无所知,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32750871/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com