gpt4 book ai didi

python - 仅限 Scrapy 正文

转载 作者:太空狗 更新时间:2023-10-29 21:47:43 24 4
gpt4 key购买 nike

我正在尝试使用 python Scrapy 仅从正文中抓取文本,但还没有成功。

希望一些学者可以帮助我在这里从 <body> 中抓取所有文本标签。

最佳答案

Scrapy 使用 XPath 符号来提取 HTML 文档的各个部分。那么,您是否尝试过使用 /html/body提取路径 <body> ? (假设它嵌套在 <html> 中)。使用 //body 可能更简单选择器:

x.select("//body").extract()    # extract body

您可以找到有关 Scrapy 提供的选择器的更多信息 here .

关于python - 仅限 Scrapy 正文,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5390133/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com