gpt4 book ai didi

python - 从文章中提取文本,如何过滤div中的标签?

转载 作者:行者123 更新时间:2023-12-01 03:01:47 25 4
gpt4 key购买 nike

我们正在使用 scrapy 并希望获取位于特定 div 中的文章正文。所以我们这样写:

article['body'] = response.xpath('string(//div[@itemprop="articleBody"])').extract_first()

问题是有时我们会收到不需要的文本。例如,我们从 div 中的样式标签获取此文本:“#container_14931537823{\n\t\tpadding:5px 5px 0px 10px;”

我们可以用 beautifulsoup 解析文章,但我们会得到相同的结果:

article['body'] = ''.join(soup.find_all('div',attrs={"itemprop" : "articleBody"})[0].text)

我们cacth所有文本主体所在的div,然后应用一种方法(字符串或文本)来提取和连接我们的文本,但是是否可以排除此div中不需要的标签?我们是否强制编写一个函数来清除提取的文本?

最佳答案

如果您使用 xpath 函数 not 并将 xpath 表达式修改为:

,则无需使用 script 标记即可获取该文章中的所有文本:

article['body'] = ''.join(response.xpath('//div[@itemprop="articleBody"]/*[not(script)]//text()').extract())

关于python - 从文章中提取文本,如何过滤div中的标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43742614/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com