gpt4 book ai didi

python - 如何用scrapy或beautiful soup提取特定html标签的内容?

转载 作者:太空宇宙 更新时间:2023-11-04 02:51:05 25 4
gpt4 key购买 nike

我正在制作这个 site 的玩具爬行器为了改进scrapy。因此,在我尝试的 scrapy shell 中:

In [1]: for e in response.css('meta.keywords').extract():
...: print(e)

Out:

<meta class="keywords" itemprop="keywords" content="abilities,choices">
<meta class="keywords" itemprop="keywords" content="inspirational,life,live,miracle,miracles">
<meta class="keywords" itemprop="keywords" content="aliteracy,books,classic,humor">
<meta class="keywords" itemprop="keywords" content="be-yourself,inspirational">
<meta class="keywords" itemprop="keywords" content="adulthood,success,value">
<meta class="keywords" itemprop="keywords" content="life,love">
<meta class="keywords" itemprop="keywords" content="edison,failure,inspirational,paraphrased">
<meta class="keywords" itemprop="keywords" content="misattributed-eleanor-roosevelt">
<meta class="keywords" itemprop="keywords" content="humor,obvious,simile">

用beautiful soup或者scrapy如何获取每个meta的内容?

最佳答案

您实际上可以通过调整选择器一次性完成:

for e in response.css('meta.keywords::attr(content)').extract():
print(e)

注意 attr 是一个非标准的 custom selector由 Scrapy 自己添加。

关于python - 如何用scrapy或beautiful soup提取特定html标签的内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43848766/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com