continuation of title"输出"<> continuation of titl-6ren">
gpt4 book ai didi

python - xpath 转义 <> 内的所有内容,如何解决?抓取痧

转载 作者:行者123 更新时间:2023-12-01 00:38:36 34 4
gpt4 key购买 nike

当使用Scrapy抓取时,在抓取文本时,在他们使用的字符串中 <>而不是«» ,一切都会丢失。例如"<<Title>> continuation of title"输出"<> continuation of title" 。使用 xpath 和 css 选择器也会发生同样的情况。

如何告诉程序文本中的这些内容不应被视为 html 并被删除?

这是我的选择器代码(类名称是虚拟的)

item = the_item.css('h3.class::text').get()
item = the_item.xpath('//p[@class="class"]/text()').get()

最佳答案

首先修复 HTML:

good_html = bad_html.sub('<<', '&lt;&lt;').sub('>>', '&gt;&gt;')

关于python - xpath 转义 <> 内的所有内容,如何解决?抓取痧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57543445/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com