gpt4 book ai didi

python - Scrapy明文错误

转载 作者:太空宇宙 更新时间:2023-11-03 17:57:52 25 4
gpt4 key购买 nike

我正在使用Python Scrapy。我想从没有 HTML 标签的网页中提取文本。下面是我的代码(从这个页面得到想法:How can I get all the plain text from a website with Scrapy?)

sel = Selector(response)
item = DeletespiderItem()
item['url'] = response.url
description = sel.select("//body").extract()
tree = lxml.html.fromstring(description)
item['description'] = tree.text_content().strip()
yield item

但我收到以下错误

File "C:\Python27\lib\site-packages\lxml\html\__init__.py", line 722, in fromstring
is_full_html = _looks_like_full_html_unicode(html)
exceptions.TypeError: expected string or buffer

我的代码出了什么问题。我怎样才能得到纯文本?

有人可以帮助我吗?谢谢,

更新:

Scapy shell https://stackoverflow.com/questions/23156780/how-can-i-get-all-the-plain-text-from-a-website-with-scrapy

sel.select("//body").extract()[0].strip()

o/p\r\n\r\n\r\n\r\n\r\n\r\n 聊天\r\n ]

它正在添加额外的\r\n 吗?

最佳答案

extract()返回一个列表,使用:

description = sel.select("//body").extract()[0]

关于python - Scrapy明文错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28229825/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com