xpath - 在 Scrapy 中选择下一个 sibling 的序列-6ren

xpath - 在 Scrapy 中选择下一个 sibling 的序列

转载作者：行者123 更新时间：2023-12-03 15:59:06

24

4

我要废弃以下 html

<h2>
  <span id="title">Title</span>
</h2>
<p>Content 1</p>
<p>Content 2</p>
<p>Content 3</p>
<p>Content 4</p>
<h2>Some other header</h2>
<p>Do not want this content</p>

我要选择的是一系列 4 <p>标题后的标签，如果不是 <p>，则忽略其他所有内容遇到标签。

到目前为止，我的 xpath 是 //h2[span[@id='title']]/following-sibling::p ，但这也包括不需要的

标签。

我也尝试了前面的兄弟方法，但没有运气//p[preceding-sibling::h2[span[@id='title']]] .额外的<p>标记仍然包括在内。

最佳答案

试试这个 xpath:

//p[preceding-sibling::h2[1][./span[@id = 'title']]]

这个 xpath 做了什么:它搜索 p具有 h2 的元素元素作为前面的兄弟，但在一个条件下 - 仅当它们的第一个前面的兄弟 h2有一个 child 叫span带属性 id等于 title

为什么过滤 <p>Do not want this content</p> ? :因为这个p的前面h2 s 列出时按顺序显示:

<h2>Some other header</h2>

<h2> <span id="title">Title</span> </h2>

因此 h2[1][./span[@id = 'title']]结果是假的，因此这p不返回。

示例 xml 上的结果:

<root>
<h2>
  <span id="title">Title</span>
</h2>
<p>Content 1</p>
<p>Content 2</p>
<p>Content 3</p>
<p>Content 4</p>
<h2>Some other header</h2>
<p>Do not want this content</p>
<p>Do not want this content too</p>
</root>

是:

'<p>Content 1</p>'
'<p>Content 2</p>'
'<p>Content 3</p>'
'<p>Content 4</p>'

关于xpath - 在 Scrapy 中选择下一个 sibling 的序列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43646685/

24

4

0

文章推荐： sql - 从 postgres 的表中选择所有重复项

文章推荐： maven - 找不到 Artifact Jackson-modules-java8 :jar

文章推荐： ruby-on-rails - 堆栈级别太深

文章推荐：多层次元素的XPath？

AngularJS从 sibling 转换到抽象状态的 sibling
我一直在使用 angular-ui-router 并尝试从同一抽象的另一个 child 中转换到我的一个抽象状态的 child 。这张图更好地展示了这个想法: 所以“R”是模块，“蓝色 1”是我的抽象
javascript - css 在固定宽度内 float 2 个 sibling ，一个 sibling 包含插入 sibling 的 ellments
很难解释我遇到的这个问题，因为有很多变数。我的网站使用 javascipt 根据屏幕分辨率调整固定包装的大小，因此所有 div 都必须调整为 3 种不同的宽度，这就是使这个问题如此困难的原因.. H
xml - 选择两个节点之间的所有 sibling (不包括 sibling )
我必须选择h1节点之间的所有内容。 Index some content some more content Index 2 some content other content Index 3 s
xpath - 如何选择以下 sibling ，直到某个 sibling
我目前正在使用已使用自定义 xml 转换器转换为 xml 的 VDA 消息类型。但是，源文档中的每个标题和行记录都处于同一级别，如下面的示例所示: 512
mysql - 如何找到所有 sibling 和同父异母 sibling
我需要查明 Table_3 是否包含属于某个父级的子级的所有 sibling 。例如，我询问 12 号 child (家长 1 = Charles)。 Table_2 告诉我他还有 2 个 sibli
css - 选择每组 sibling 中的最后一个 sibling
所以我想选择一组元素中的最后一个兄弟元素，但是父容器中有多个元素。 Some text 所以在这种情况下，对于每一 block .select
css - :targeting sibling? sibling 的过渡高度
我正在尝试为我的网站做一种 Accordion ，类似于 this website 上的那个。 , 但没有切换。我正在使用的代码是 here . 我有基本的设置工作，但我似乎无法让 li 的高度正确
xml - XSLT:如何用所有 sibling 的串联替换第一个 sibling ？
我很难尝试实现 XSL 转换。我需要改变这个: 1 Homepage AB308E 5
用于爬行的 XPath 跟随 sibling 不返回 sibling
我正在尝试创建一个爬虫来从供应商网站中提取一些属性数据，我可以根据我们的内部属性数据库对其进行审核，并且是 import.io 的新手。我看了一堆视频，虽然我的语法似乎是正确的，但我的手动 xpath
XPath : select all following siblings until another sibling
这是我的 xml 的摘录: content content 我定位在node[@id='1'] .我需要一个 Xpath 来匹配所有元素直到下一个非空节点(这里是 node[@id='
python - Selenium - 如何从一个 sibling 跳转到另一个 sibling
我正在使用 Selenium-Python 来抓取此链接中的内容。 http://targetstudy.com/school/62292/universal-academy/ HTML代码是这样的，
jquery - 点击加载更多目标接下来的三个 sibling 然后接下来的三个 sibling ，不使用循环
html - sibling 的 child 在悬停时影响 sibling
这个问题在这里已经有了答案: Is there a CSS parent selector? (33 个答案) 关闭 4 年前。
css - 悬停在 sibling 上只会影响 sibling 向上
代码笔:https://codepen.io/andrelange91/pen/VyjYBg 我做了以下声级示例，它应该在悬停时填充其他条。但目前是落后的...而且我一直没能找到一种方法(尽管我敢打赌
javascript - 改变所有 previous sibling 姐妹和堂 sibling
在下面的示例中，我试图获取所有之前(包括当前的 ) class="current"具有番茄背景色。所以在这个例子中:1、2、3、4 和 5 的背景颜色是番茄。如果我需要它来更新那class
html - 有没有办法在 sibling 和 sibling 之间进行CSS选择？
在下面的例子中， h2 p p p h2 p p p h2 我只想在 h2.first 和 h2.second 之间选择 p。我试过 select si
html - XPath:如何选择以下 sibling 直到某个 sibling
对于下面的示例 HTML，返回具有 class='A' 和 class='B' 的“a”元素的 sibling 的 XPath 查询可以写为://a[@class='A']/following-sib
ruby - XPath 查找所有后续 sibling ，直到特定类型的下一个 sibling
鉴于此 XML/HTML: Label1Value1 Label2Value2 Label3Value3aValue3b Label4Value4 我想找到所有，然后为每个找到
xml - xsl/xpath 选择 sibling ，但不是下一个相似的 sibling
这是我在 StackExchange 的第一篇文章，如果我做错了什么，请多多包涵: 我有一个从产品数据库派生的 XML 文件，其中所有分组信息都丢失了，除了元素的顺序。所有产品都有一个首先出现的商品编
c# - Selenium : xpath following-sibling where siblings have more children
我希望以易于理解的方式描述我的问题。我的 html 看起来像这样: AAAA BBBB 我想要 TextArea 的 Xpath(其中标签的值为 AAAA)用 Sel

首页

博学

6Ren·AI

商城

xpath - 在 Scrapy 中选择下一个 sibling 的序列