gpt4 book ai didi

python - 从 Scrapy 中排除 div

转载 作者:行者123 更新时间:2023-12-01 04:16:27 26 4
gpt4 key购买 nike

我有这个html:

<div id="content">
<h1>Title 1</h1><br><br>

<h2>Sub-Title 1</h2>
<br><br>
Description 1.<br><br>Description 2.
<br><br>

<h2>Sub-Title 2</h2>
<br><br>
Description 1<br>Description 2<br>
<br><br>

<div class="infobox">
<font style="color:#000000"><b>Information Title</b></font>
<br><br>Long Information Text
</div>
</div>

我想获取<div id="content">中的所有html在 Scrapy 中但不包括 <div class="infobox">的 block ,所以预期的结果是这样的:

<div id="content">
<h1>Title 1</h1><br><br>

<h2>Sub-Title 1</h2>
<br><br>
Description 1.<br><br>Description 2.
<br><br>

<h2>Sub-Title 2</h2>
<br><br>
Description 1<br>Description 2<br>
<br><br>
</div>

如何修改当前选择器:

item['article_html'] = hxs.select("//div[@id='content']").extract()[0]

最佳答案

没有直接的方法可以直接使用选择器(xpath)来执行此操作。

你可以这样做:

content = hxs.select("//div[@id='content']").extract()[0]
infobox = hxs.select("//div[@id='content']//div[@class='infobox']").extract()[0]

item['article_html'] = content.replace(infobox, "")

关于python - 从 Scrapy 中排除 div,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34255232/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com