python - 不一致的 Scrapy Xpath 行为(OS X + Linux)-6ren

python - 不一致的 Scrapy Xpath 行为(OS X + Linux)

转载作者：太空狗更新时间：2023-10-29 12:16:59

25

4

我在 Scrapy 中遇到了 Xpath 选择器的问题。每当我在 OS X 上运行 spider 时，选择器都会按预期工作；然而，当我在 Ubuntu 12.04 和 Raspbian 中运行相同的脚本时，选择器不起作用。我不知道为什么会这样。

选择器是:

sel.xpath('//table[@class="times"]')

它向我返回表的 2 个选择器，但是当我更进一步并添加索引以选择返回的第二个表时:

sel.xpath('//table[@class="times"][2]')

OS X 毫无问题地返回第二张表，而 Ubuntu/Raspbian 什么都不返回:[]

我完全不知道为什么会这样。我已尽力复制环境(scrapy 版本 0.20，python 2.7)，但我仍然没有弄清楚。作为引用，我试图通过 shell 抓取的页面是

scrapy shell "http://washington.dc.gegov.com/webadmin/dhd_431/lib/mod/inspection/paper/_paper_food_inspection_report.cfm?inspectionID=200651&wgdmn=431&wguid=1367&wgunm=sysact"

感谢对此事的任何帮助。

最佳答案

谨慎使用//table[@class="times"][2] :它将选择其父元素的类为“times”的所有后代第二个子表元素。因此，如果一个节点只有 1 个带有“times”类的子表，则该节点不匹配。

它与(//table[@class="times"])[2] 不同这将为您提供根节点下带有类“times”的第二个表(这可能是您想要的)。您也可以使用 /descendant::table[@class="times"][2] .

而且还是和//table[2][@class="times"]不一样选择所有作为其父项的第二个子元素且具有类“times”的后代表元素。

参见 XPath 1.0 specifications关于缩写语法 // :

NOTE: The location path //para1 does not mean the same as the location path /descendant::para1. The latter selects the first descendant para element; the former selects all descendant para elements that are the first para children of their parents.

让我们用 scrapy shell 来说明这一点 session

paul@wheezy:~$ scrapy shell "http://washington.dc.gegov.com/webadmin/dhd_431/lib/mod/inspection/paper/_paper_food_inspection_report.cfm?inspectionID=200651&wgdmn=431&wguid=1367&wgunm=sysact"

In [1]: sel.xpath('//table[@class="times"][2]')
Out[1]: []

In [2]: sel.xpath('(//table[@class="times"])[2]')
Out[2]: [<Selector xpath='(//table[@class="times"])[2]' data=u'<table class="times" style="font-size:9p'>]

In [3]: sel.xpath('/descendant-or-self::table[@class="times"]')
Out[3]: 
[<Selector xpath='/descendant-or-self::table[@class="times"]' data=u'<table class="times" style="margin-top:1'>,
 <Selector xpath='/descendant-or-self::table[@class="times"]' data=u'<table class="times" style="font-size:9p'>]

In [4]: sel.xpath('/descendant-or-self::table[@class="times"][2]')
Out[4]: [<Selector xpath='/descendant-or-self::table[@class="times"][2]' data=u'<table class="times" style="font-size:9p'>]

In [5]: sel.xpath('/descendant::table[@class="times"][2]')
Out[5]: [<Selector xpath='/descendant::table[@class="times"][2]' data=u'<table class="times" style="font-size:9p'>]

In [6]:

另一件事，在您的示例页面中，我看到 4 个表在其类属性中包含“时间”:

<table class="times" style="margin-top:1...
<table class="times" style="font-size:9p...
<table class="times pt6" cellpadding="0"...
<table class="times fs_10px" style="bord...

所以请记住 [@class="times"]谓词意味着类属性正好是“时间”，而不是简单地包含“时间”(你可以使用 [contains(@class, "times")] 来表示)

关于python - 不一致的 Scrapy Xpath 行为(OS X + Linux)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21316621/

25

4

0

文章推荐： php - Linux : Pack PHP - MySQL app in RPM

文章推荐： linux - 从 Windows 复制到 Linux 时保留权限

文章推荐： linux - sudo apt-get install php5-cli 时出错

python - os.path.abspath(os.path.join(os.path.dirname(__file__), os.path.pardir)) 是什么意思？ Python
在几个 SO 的问题中，有这些行可以访问代码的父目录，例如os.path.join(os.path.dirname(__file__)) returns nothing和 os.path.join(o
python - os.chmod、os.fchmod 和 os.lchmod 之间的区别
我想用 Python 更改文件模式。 os 模块具有三个功能上看似相同的功能: os.chmod os.fchmod os.lchmod 这三个版本有什么区别？最佳答案 chmod 用于更改路径指定
Python:os.read()/os.write() 在 os.pipe() 线程安全吗？
考虑: pipe_read, pipe_write = os.pipe() 现在，我想知道两件事: (1) 我有两个线程。如果我保证只有一个正在读取 os.read(pipe_read,n) 而另一个
Python os- 当我使用 os.mkdir 创建目录时，os.path.isdir 告诉我该目录不存在
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
linux - OS - OS 如何将准备好的设备数据映射到各个进程
让我们以硬盘驱动器/网络接口(interface)为例。它由多个进程共享。现在多个进程可能会向硬盘驱动器发出并发命令来读取数据。当数据可用时，内核如何知道哪个进程的数据已准备好？操作系统和硬盘驱动器之
python - os.link() 与 os.rename() 与 os.replace() 用于编写原子写入文件。最好的方法是什么？
嗨，我正在尝试编写像这样的原子写入函数...... with tempfile.NamedTemporaryFile(mode= "w", dir= target_directory) as f:
sockets - 如何从 os.Error 获取 os.Errno？其他使用 os.Timeout 的方法？
net.Conn接口(interface)提供了 SetTimeout 方法，我应该用 os.Timeout 检查返回的错误.但是我看不到在返回的 os.Error 上调用 os.Timeout 的方
python - os.getcwd() 与 os.path.abspath(os.path.dirname(__file__))
我正在使用 os 模块在我的 Django 项目 settings.py 文件中具有相对路径。变量 SITE_ROOT 设置为 settings.py 文件的当前工作目录，然后用于引用同样位于同一目录
python - 为什么 os.path.join 不使用 os.path.sep 或 os.sep？
正如我们所知，Windows 接受 "\" 和 "/" 作为分隔符。但是在python中，使用的是"\"。例如，调用 os.path.join("foo","bar")，将返回 'foo\\bar'。
python - 如何修复 os.path.join(os.getcwd(), os.relpath ('my_file' )) 不返回 'my_file' 的路径？
我有以下工作目录:/Users/jordan/Coding/Employer/code_base ，我想要获取绝对路径的文件位于 /Users/jordan/Coding/Employer/code_
python - os.path.expanduser ("~/x") 是否等同于 os.path.abspath(os.path.expanduser ("~/x"))？
在 Python 中，如果路径中包含“~”，我能否确定扩展的用户调用将是绝对路径？例如，这个表达式是否总是为真？ path = '~/.my_app' os.path.expanduser(path
python - os.path.dirname(os.path.abspath(__file__)) 和 os.path.dirname(__file__) 的区别
我是 Django 项目的初学者。Django 项目的 settings.py 文件包含这两行: BASE_DIR = os.path.dirname(os.path.dirname(os.path.
python `os` 返回 `os` 认为不存在的文件
我有一个旧 MAC OS 文件存储中的文件集合。我知道集合存在文件名/路径名问题。问题源于我认为在原始操作系统中呈现为破折号的路径中包含一个代码点，但 Windows 与代码点斗争，并且其中一个包含
Ubuntu安装mac os x主题让你的Ubuntu看起来更像MAC OS X
Ubuntu怎么安装mac os x主题呢？下文小编将为大家分享ubuntu14.04安装mac os x主题教程，安装MAC OS X&
firefox-os - 如何在 Firefox OS 的默认浏览器中打开链接？
我有一个 Firefox OS 应用程序，我希望在该应用程序之外打开一个链接(该链接指向不同的站点，在应用程序中打开它会使应用程序在没有强制的情况下无法使用)。我怎么做？ Related bug re
mobile-os - 如何为 Firefox OS 编写应用程序
我想为 Firefox OS 编写我的应用程序.使用什么样的语言(如 Android 的 Java 和 iOS 的 Objective C++)和工具(如 Eclipse、Xcode)？最佳答案适
palm-os - "Background"Palm OS 中的任务
我正在尝试创建一个 Palm OS 应用程序，以每 X 分钟或几小时检查一次网站，并在有数据可用时提供通知。我知道这种事情可以在新的 Palm 上完成——例如，当应用程序不在顶部时，我的 Centro
firefox-os - 如何在 Firefox-OS 中处理不同的屏幕分辨率？
我需要在 Firefox OS 中显示全屏图像。我有一个具有 qHD 分辨率(960x540 像素)的“峰值”开发预览手机。如何确保我的应用程序在其他具有不同屏幕分辨率的 firefox-os 设备
firefox-os - 本地化 Firefox OS (B2G)
我正在尝试在 Firefox OS 中安装一个新的语言环境，但我不确定我是否正确地按照这些步骤操作。首先，我尝试使用 Mercurial 下载所需的语言环境:它对我不起作用，Mercurial 说访
macos - 在Mac OS(OS X)中登录时启动Shell脚本
我有这个shell脚本Test.sh： #! /bin/bash FILE_TO_CHECK="/Users/test/start.txt" EXIT=0 while [ $EXIT -eq 0 ];

首页

博学

6Ren·AI

商城

python - 不一致的 Scrapy Xpath 行为(OS X + Linux)