python - Scrapy明文错误-6ren

python - Scrapy明文错误

转载作者：太空宇宙更新时间：2023-11-03 17:57:52

25

4

我正在使用Python Scrapy。我想从没有 HTML 标签的网页中提取文本。下面是我的代码(从这个页面得到想法:How can I get all the plain text from a website with Scrapy?)

sel = Selector(response)
        item = DeletespiderItem()
        item['url'] =  response.url
        description = sel.select("//body").extract()
        tree = lxml.html.fromstring(description)
        item['description'] = tree.text_content().strip()
        yield item

但我收到以下错误

File "C:\Python27\lib\site-packages\lxml\html\__init__.py", line 722, in fromstring
        is_full_html = _looks_like_full_html_unicode(html)
    exceptions.TypeError: expected string or buffer

我的代码出了什么问题。我怎样才能得到纯文本？

有人可以帮助我吗？谢谢，

更新:

Scapy shell https://stackoverflow.com/questions/23156780/how-can-i-get-all-the-plain-text-from-a-website-with-scrapy

sel.select("//body").extract()[0].strip()

o/p\r\n\r\n\r\n\r\n\r\n\r\n 聊天\r\n ]

它正在添加额外的\r\n 吗？

最佳答案

extract()返回一个列表，使用:

description = sel.select("//body").extract()[0]

关于python - Scrapy明文错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28229825/

25

4

0

文章推荐： c# - 将.exe文件集成到Visual Studio项目中

文章推荐： ruby-on-rails - 为什么这不是在 Rails 表单中创建多选框？

文章推荐： python - 如何制作Python程序的可执行文件？

文章推荐： c# - 使用Br_S OpCode指向使用Reflection.Emit.Label的下一条指令

java - Android 明文
我正在使用将文本显示在屏幕上 text.setText(text.getText().toString()+"binary message sent: "+ msg + "\n"); 如何从屏幕上删
java - JLabel 明文
我正在编写一个程序来 ping 服务器并返回一个值。我一直在尝试将 ping 覆盖到 JFrame，其中 JLabel 在透明窗口中显示 ping。但是，每次我调用方法 DrawOverlay()
java - JTextPane 明文
我正在尝试从 JTextPane 中删除所有文本。我以为你可以简单地使用: textPane.setText(""); 这确实有效，但由于某种原因，调用该方法后总是有一个空行。为什么会这样？我该如何预
ios - 明文 HTTP 被阻止
更新到新发布的 Xcode 7 版本后，我遇到了这个问题。应用程序传输安全性已阻止明文 HTTP (http://) 资源加载，因为它不安全。可以通过应用程序的 Info.plist 文件配置临时异
javascript - 单击文本框中的 Coffeescript 明文
我试图在单击单选按钮时清除简单文本框中的文本。这是我的 CoffeeScript ... $("#selection_single").click -> $("#from_date_tex
VBS Runas 自动输入密码, 明文
复制代码代码如下: Set Shell = CreateObject("WScript.Shell") Shell.Run "cmd /c @runas /use
svn - TortoiseSVN 需要打开哪些端口来进行身份验证(明文)和提交？
TortoiseSVN 需要打开哪些端口进行身份验证(基本)才能提交？我知道这不是一件好事，但我相信用户名和密码现在是清楚的。让我尽可能多地描述一下我所知道的设置以及似乎正在发生的情况。我是一名承
java - 明文 Velocity 模板单行 foreach
我正在使用速度模板为通知系统生成纯文本电子邮件。我有一个“收件人”POJO 列表，其中包含用户 ID 和电子邮件地址。我想迭代这些 POJO 并在一行中输出用户 ID(最终用逗号等分隔符分隔)。我在格
encryption - Microsoft CNG BCryptEncrypt 返回密文 == 明文
我正在尝试围绕 CNG 的 AES 实现 AES-OFB 包装器以进行对称加密。我遇到了一个我无法理解的问题...我创建了一个 AES 算法句柄 (BCRYPT_AES_ALGORITHM) 并导入
javascript - 带确认框的 Data.gui.js 明文
dat.gui.js 我尝试使用DAT.GUI.js中的文本输入，当我单击输入框时，如果有默认值，文本输入框应该是清晰的。完成后，会弹出一个确认框(Message Box)，告知用户输入的消息。现在
android - 不允许到本地主机的 NativeScript Angular 明文 HTTP 流量
我正在使用原生脚本的 angular 版本并尝试为我的网络创建登录系统。下面是我尝试登录网络的代码。 home.component.ts import { LoginService } from
objective-c - iOS 5 中的 Offscreen UITextView 不可见/明文
我有一个从 Nib 加载的屏幕外 UITextView 实例，当用户点击“评论”按钮时，它会移动到屏幕框架中。输入使用的任何文本都是不可见的。如果用户旋转设备，文本就会出现。我试过设置 setNee
python - 使用 pyaes 进行 AES 加密时，明文 block 必须为 16 字节错误
我正在尝试使用 pyaes 进行 AES 加密。我的下面的代码运行完美。 text = 'Hello world !!!!' encrypter = pyaes.AESModeOfOperation
javascript - Google plus 是如何在 contenteditable div 处实现 Javascript 明文 "paste"的？
我在 Stack Overflow 中看到了很多答案，解释了我们如何通过监听 keydown 事件并将焦点重定向到位于屏幕外的文本区域来删除文本粘贴的格式。这个解决方案很好，但没有解决使用上下文菜单或
iphone - 我有 : RSA key, 指数，明文。我想要 : cipher text. 应该是 2 行 Obj-C 不是吗？
正如标题所说。使用 iPhone SDK，我想使用服务器提供的现有 key 和指数对一些(小)明文进行 RSA 加密以进行身份验证。这肯定是一项简单的任务，需要一个库导入和几行代码？如果没有，为什

首页

博学

6Ren·AI

商城

python - Scrapy明文错误