python - Scrapy中是否可以通过CSS属性定位元素？-6ren

python - Scrapy中是否可以通过CSS属性定位元素？

转载作者：太空狗更新时间：2023-10-29 13:11:03

25

4

我想知道 Scrapy 是否有方法根据 CSS 中定义的颜色来抓取数据。例如，选择具有 background-color: #ff0000 的所有元素。

我试过这个:

response.css('td::attr(background-color)').extract()

我期待一个为表格数据元素设置所有背景颜色的列表，但它返回一个空列表。

在 Scrapy 中通常可以通过 CSS 属性定位元素吗？

最佳答案

简短的回答是不，这不可能单独使用 Scrapy。

为什么不？

:attr() 选择器允许您访问元素属性，但background-color 是CSS property .
现在需要了解的一件重要事情是，有多种不同的方法可以定义页面上元素的 CSS 属性，并且要实际获取元素的 CSS 属性值，您需要一个浏览器来完全渲染页面和所有定义的样式表
Scrapy本身不是浏览器，不是javascript引擎，它不能渲染页面

异常(exception)情况

不过，有时 CSS 属性是在元素的 style 属性中定义的。例如:

<span style="background-color: green"/>

如果是这种情况，是的，您将能够使用 style 属性值来过滤元素:

response.xpath("//span[contains(@style, 'background-color: green')]")

虽然这会非常脆弱并且可能会产生误报。

你能做什么？

寻找其他东西作为定位器的基础。一般来说，严格来说，通过背景颜色定位元素并不是找到所需元素的最佳方式，除非在某些不寻常的情况下，此属性是唯一的区分因素
scrapy-splash元素允许您自动化一个可以呈现页面的轻量级 Splash 浏览器。在这种情况下，您需要执行一些 Lua 脚本来访问渲染页面上元素的 CSS 属性
selenium浏览器自动化工具可能是解决此问题最直接的工具，因为它使您可以直接控制和访问页面及其元素及其属性和属性。有这个.value_of_css_property() method获取 CSS 属性的值。

关于python - Scrapy中是否可以通过CSS属性定位元素？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26027847/

25

4

0

文章推荐： git - 不能 'git push' 到 Heroku

文章推荐： android - 我是否应该使用 AIDL？

文章推荐： java - 将 libgdx 部署到 android studio 上的 html5

css - 如何将 CSS 文件的 CSS 规则包含到另一个 CSS 文件的选择器中？
我有一个名为 main.css 的 css 文件和另一个名为 style.css 的文件。我怎样才能在 main.css 中做到这一点？ .someClass { //apply rules to
css - 将 css 文件移动到新的 css 文件夹后无法从我的 css 访问我的图片
在更新我的 css 之前，我在 Login.css 中有以下内容: body { background-image: url('./pictures/fond.png'); bac
css - css 3 中是否有任何 css 类分组 css 类？
我的 share point 2013 核心 css 和我的 css 之间存在 css 冲突。所以我想把我所有的类都放在 div #s4-workspace 下但是我搜索了一种方法来将所有类分组到这个
css - 使用内联 CSS 删除从 CSS 文件继承的 CSS 属性
我知道您可以覆盖 jsp 页面从 jsp 包含 CSS 文件(即全局 CSS 文件)继承的 CSS 属性。但是，如果元素中的某个属性弄乱了特定页面，而我不想只使用内联 CSS 在该页面中使用它怎么办
css - 初始规模与 desktop.css+phone.css+tablet.css？
我刚刚发现了 initial-scale 元属性。以前，我一直在使用 default.css 来定义我所有的样式和大小(用于字体和元素)，以便它们在桌面计算机的屏幕上显示得很好。然后，如果您使用的是
css - LESS CSS - 提取生成的 CSS
我正在尝试使用 LESS CSS 来编写我的 CSS。我已经按顺序导入了 style.less 和 less.js 文件。现在我想提取 LESS 生成的 CSS。有什么办法可以做到吗？我不想使用脚本
css - 如何将内联 CSS 转换为外部 CSS？
我想知道是否有任何一种软件可以读取大量内联样式中的 HTML 文档并将所有这些样式转换为外部 css 文件。如果只有一页，我可以手动完成。但是有100页。有人有想法吗？最佳答案就像有人说的那样，“
css - 来自样式化组件时 CSS 模块中的动态 CSS
当我想从 Styled Components 迁移到 CSS Modules 时，出现了以下问题。假设我有以下样式组件，它接受动态参数 offset和一个动态 CSS 字符串 theme : con
css - 在 CSS 中引用 CSS
有没有办法将 CSS 类定义为与另一个类相等？例如，如果我有一个类: .myClass{ background-color: blue; } 有没有一种方法可以将第二个类定义为与 myClas
css - 如何基于一个元素的 CSS 或它的前一个相邻兄弟的 CSS？
我正在尝试制作一组按钮，这些按钮贴在页面底部并且由固定的空间隔开。我正在使用 angularJS 的 ng-repeat 指令通过 ajax 请求获取数据，然后我用它来显示按钮。我的问题在于让按
css - 浏览器是否在加载 CSS 文件时解析 CSS？
浏览器是否在加载 CSS 文件时解析 CSS？还是在整个 CSS 文件被浏览器下载后才进行解析？不同浏览器的做法有区别吗？我在哪里可以找到这种底层信息？这个问题不是 Load and executi
css - 将已经定义的 CSS 添加到另一个 CSS
这个问题在这里已经有了答案: Can a CSS class inherit one or more other classes? (29 个答案) 关闭 3 年前。标题有点乱，我给大家看一下。假
css - css/main.css 是否还有其他用途？
我遇到了最奇怪的问题...... 在最简单的形式中，我有一个包含以下内容的 index.html 文件: (在尝试确定根本原因的过程中，我已经大大减少了它) 当我查看页面的源代码时，我得到以下信息:
css - 如果缺少所需的 css，则加载备用 css
我正在使用 Mindscape Workbench 来最小化我的 scss 文件。我的页面设置为使用 *.min.css 文件。在随机时间，min 文件不会与系统的其余部分一起发布。我有很多 css
css - CSS 框架和 CSS 网格有什么区别
请告诉我 CSS 框架和 CSS 网格之间的区别。最佳答案 CSS 框架也可以是 CSS 网格框架。 CSS 网格框架用于构建 CSS 布局。有一些框架除了构建布局还有其他用途，例如 Hartija
css - 如何摆脱从 css 文件继承的 css？
我有无法从页面中删除或更改的 original.css 文件。原始.css table { border-collapse: collapse; border-spacing: 0;
css - 带有 CSS 模块的普通 CSS
我以前使用 bootstrap css import 很好。但是我正在尝试使用 CSS 模块，所以我添加了几行。 { test: /\.css$/, use:
css - CSS 中的嵌套 CSS 选择器
有没有办法在 css 选择器中创建一个 css 组。例如: .SectionHeader { include: .foo; include: .bar; include: .
css - CSS 定位和 CSS 边距之间的区别
今天我学习了 CSS 中的两个概念，一个是 CSS 定位(静态、相对、绝对、固定)，另一个是 CSS Margin，它定义了元素之间的空间。假设我想移动一个元素，这是最好的方法吗？因为这两个概念似乎
css - Gulp CSS 任务不会覆盖现有的 CSS
var paths = { css: './public/apps/user/**/*.css' } var dest = { css: './public/apps/user/css/' } /

首页

博学

6Ren·AI

商城

python - Scrapy中是否可以通过CSS属性定位元素？

为什么不？

异常(exception)情况

你能做什么？