页面上的 Python 抓取仍然包含像\r\n\t 这样的字符-6ren

页面上的 Python 抓取仍然包含像\r\n\t 这样的字符

转载作者：太空宇宙更新时间：2023-11-03 11:05:16

25

4

我正在尝试抓取 http://www.dmoz.org/Computers/Programming/Languages/Python/Books此页面使用 scrapy 0.20.2。

我可以做我需要做的所有事情，比如获取信息和分类......

但是，我仍然在结果中得到\r 和\t 以及\n 。例如这是一个 json {"desc": ["\r\n\t\t\t\r\n ", "\r\n\t\t\t\r\n - 主要本书的目标是促进使用 Python 的面向对象设计并说明新兴的面向对象设计模式的使用。\r\n本书的第二个目标是及时提供数学工具。分析技术和证明是根据需要并在适当的上下文中呈现。\r\n\r\n "], "link": ["http://www.brpreiss.com/books/opus7/html/book.html"], "title ": ["Python 中具有面向对象设计模式的数据结构和算法"]},

数据是正确的，但我不想在结果中看到\t 和\r 和\n 。

我的蜘蛛是

from scrapy.spider import BaseSpider
from scrapy.selector import Selector

from dirbot.items import DmozItem

class DmozSpider(BaseSpider):
   name = "dmoz"
   allowed_domains = ["dmoz.org"]
   start_urls = [
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"
   ]

   def parse(self, response):
       sel = Selector(response)
       sites = sel.xpath('//ul[@class="directory-url"]/li')
       items = []
       for site in sites:
           item = DmozItem()
           item['title'] = site.xpath('a/text()').extract()
           item['link'] = site.xpath('a/@href').extract()
           item['desc'] = site.xpath('text()').extract()
           items.append(item)
       return items

最佳答案

我用过:

def parse(self, response):
    sel = Selector(response)
    sites = sel.xpath('//ul/li')
    items = []
    for site in sites:
        item = DmozItem()
        item['title'] = map(unicode.strip,site.xpath('a/text()').extract())
        item['link'] = map(unicode.strip, site.xpath('a/@href').extract())
        item['desc'] = map(unicode.strip, site.xpath('text()').extract())
        items.append(item)
    print "hello"
    return items

并且有效。我不确定它是什么，但我仍在阅读 unicode.strip。希望对您有所帮助

关于页面上的 Python 抓取仍然包含像\r\n\t 这样的字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21091501/

25

4

0

文章推荐： php - 通过标签或文本字段和 MySQL 的全文搜索方法

文章推荐： c# - 没有逆属性的多对多

文章推荐： android 9-patch 渐变

java - 在解决构建路径错误之前无法构建项目(仍然)
每次我尝试构建(执行完整的 Clean，然后构建)时，我都会在 Eclipse 的问题部分下弹出此错误消息。项目本身旁边还显示一个错误。我已经尝试了同一问题的其他解决方案中包含的所有内容: 删除项目
java - 没有找到合适的驱动程序..仍然
我收到以下错误(注意:我使用的是 Netbeans): java.sql.SQLException: No suitable driver found for jdbc:derby://localho
c++ - 在构造函数中使用指向(仍然)未初始化成员的指针是否安全？
例如 //somewhere struct IFace; struct Base { Base(IFace* iface): f(iface) { //wi
c++ - sstream 不工作...(仍然)
我试图通过 stringstream 将 double 变成字符串，但它不起作用。 std::string MatlabPlotter::getTimeVector( unsigned int xve
ios - AudioKit(仍然)缺少用于对音频文件进行排序的时钟
我正在尝试使用 AudioKit 框架中的音序器播放音频文件。 AudioKit.output = sampler AudioKit.start() sampler.enableMID
ruby-on-rails - Heroku 部署问题.. 仍然
昨天我问了一个关于插入 Heroku 的问题。它不工作，然后突然开始工作。我什么都没改变。现在在一个新的应用程序上，我遇到了完全相同的问题。我决定包含我的整个 Gemfile，希望我可以继续没有这种令
c# - TabControl WPF MVVM中的延迟加载(仍然)
我知道，这个topic已经是discussed许多times，所以直截了当。这是ItemsSource的TabControl: Tabs = new ObservableCollection {
javascript - AngularJS 更新功能(仍然)不起作用
我有一个更新对象的函数，问题是当我从更新表单字段返回到详细 View 时，它初始化旧对象而不是更新后的对象。我想在 CarService 而不是 app.js 中填充汽车列表这是我的汽车服务:
delphi - Delphi TClientSocket(仍然)是否已弃用？
在 resolution comments错误报告 12266 (“套接字连接错误导致资源泄漏”)，Robert Ehteshamzadeh 写道 TClientSocket is deprecate
Java:JTextField(仍然)在最小化时调整大小(新信息)
我最初发布了一个问题 here 我发现 JTextField 仅在 JScrollPane 存在时才调整大小。换句话说，我可以根据需要最小化和最大化它，直到出现滚动条(因为文本太多，无法放入窗口)。之
css - Firefox(仍然)不打印绝对定位的 div？
我读过关于 postion:absolute 的问题并尝试了几乎所有可能的解决方案。包括相对定位 div，将它们包装在相对定位的父级中等等，但它没有帮助。我正在绘制一个表格，然后我将 div 放入其
javascript - document.getElementById(仍然)不工作
我在这里发起了一个话题document.getElementById not working但看起来即使提出的建议都是有效的，我仍然有问题。我有几个复选框。当我在这里查看页面源代码时，有。 docu
javascript - 对于奇数测试，按位 AND 运算符总是比模数快(仍然)吗？
我正在做一些阅读，试图更好地理解按位运算符，然后偶然发现了 a helpful old blog post from 2012 ，其中指出 - 在随机正整数 x 的奇数测试中 - 在作者的计算机上评估
java - AspectJ 与 Maven(仍然)无法工作
我正在尝试在 Eclipse Neon 中使用 aspectj 创建一个示例 maven 项目。然而，方面并没有编织/工作(参见下面的输出)。我尝试寻找很多原因和解决方案，但没有一个有效(请参阅下面的
c# - .Net Core 2.0 调试日志记录被破坏(仍然)
无论我如何配置我的 appsettings.json 和 appsettings.Development.json，除非我手动添加 ConfigureLogging，否则我无法在信息消息下方记录任何内
javascript - (仍然)对 javascript 闭包、ajax 和返回值更加困惑
我正在尝试使用 JQuery .get() 方法和 JavaScript for 循环来处理来自外部文件的一些数据。我已经在 stackoverflow 上阅读了有关闭包和回调返回值的内容几个小时，但
php - 无法在 PHP 5.6 中打印文件(仍然)？
我正在使用 PHP 5.6 并且要打印一些东西，我必须编辑 php.ini 并包含 php_printer.dll 文件。但是 PHP 5.6 没有.dll 文件。我要解决的问题: 我想将凭证打印机
取消 Hook 后 C# 仍然 Hook 到事件
我目前正在调试一个包含内存泄漏的大(非常大!)C# 应用程序。它主要使用 Winforms 作为 GUI，尽管一些控件是在 WPF 中制作的，并由 ElementHost 托管。直到现在，我发现许多内
mysql - 将 wait_timout 设置为 30 ，仍然 sleep 连接以恒定速率增加
[已解决] 看来 PHP MYADMIN 变量成功了。我将 wait_timeout 设置为 30 ，并将 Lock_wait_timeout 设置为 50 花了将近 6 个小时才恢复稳定，包括几次重
c++ - CONFIG += c++11(仍然)在 Linux 上不起作用
我读过几个关于该主题的讨论，有人说 qmake < 3.0 不正确支持该指令。我刚刚为 g++-64 重新安装了 Qt 5.9.1，但问题仍然存在。此外，我尝试过各种 mkspecs/xxx/xxx.

首页

博学

6Ren·AI

商城

页面上的 Python 抓取仍然包含像\r\n\t 这样的字符

我的蜘蛛是