gpt4 book ai didi

python - Scrapy:如何获取另一个标签内标签的文本

转载 作者:行者123 更新时间:2023-11-30 22:38:16 25 4
gpt4 key购买 nike

我有这样的 html 段落:

<p>Hello <strong>I'm G </strong></p>

我正在尝试获取 p 中的所有文本。即使是强标签的部分。我尝试了下面的代码,但我只得到“Hello”。:

for text in response.css("div.entry-content"):
yield {
"parag": text.css("p::text").extract(),
}

我也尝试过像 css 中的第一个子元素,但这次没有返回任何内容:

"parag": text.css("p:strong::text").extract()

编辑:它可以是另一个标签,而不是“strong”。所以目标是获取第一个子文本

最佳答案

这是一个工作示例:

>>> from scrapy.http import HtmlResponse
>>> response = HtmlResponse(url="Test HTML String", body="<p>Hello <strong>I'm G </strong> <b>I write code</b></p>")

# First child
>>> ' '.join(t.strip() for i, t in enumerate(response.css('p ::text').extract()) if i< 2).strip()
u"Hello I'm G"

# All child
>>> ' '.join(t.strip() for t in response.css('p ::text').extract()).strip()
u"Hello I'm G I write code"

关于python - Scrapy:如何获取另一个标签内标签的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43639200/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com