gpt4 book ai didi

python - 使用 Xpath 使用多个条件从 中的元标记中提取内容

转载 作者:太空宇宙 更新时间:2023-11-03 21:19:48 25 4
gpt4 key购买 nike

我想选择具有两个条件的元标记的 xpath。通常它的工作原理是这样的:

//div[@id='..' and @class='...]

但是,我想要提取的元标记如下所示:

< meta name="Description" xml:lang="en" content="Some text which I want to extract.">

我尝试过:

extract_with_xpath('//meta[@name="Description" and @xml:lang="en"]/@content')

另外:

extract_with_xpath('//meta[@name="Description" and (@xml:lang="en")]/@content')

还尝试了其他几个选项,但都不起作用。

有人知道如何解决这个问题吗?

最佳答案

标签 < meta 中有空格,所以我也没有成功从中提取数据。但你可以尝试:

import re
from scrapy import Selector

txt = """< meta name="Description" xml:lang="en" content="Some text which I want to extract.">"""
txt_stripped = re.sub(r'<\s(\w+)', r'<\1', txt)
sel = Selector(text=txt_stripped)
print sel.css("meta[name=Description][xml\:lang='en']::attr(content)").get()

关于python - 使用 Xpath 使用多个条件从 <head> 中的元标记中提取内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54385604/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com