- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如何在写入 CSV 文件时删除 unicode 字符串“[u'string]”。
**this is my spider:**
import pdb
import FileManager
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from centerfireguns.items import CenterfiregunsItem
from urlparse import urljoin
from scrapy.http import Request
new_filemanager = FileManager.File_Manager()
class FiregunsSpider(CrawlSpider):
name = 'centerfireguns'
allowed_domains = ['centerfireguns.com']
start_urls = ['http://www.centerfireguns.com/firearms.html']
rules = (
Rule(SgmlLinkExtractor(allow=(), restrict_xpaths=('//a[contains(@class, "i-next")][1]')), callback='parse_item', follow=True),
)
def parse_item(self, response):
hxs = HtmlXPathSelector(response)
urls = hxs.select('//a[contains(@class,"product-image")]/@href').extract()
for url in urls:
new_url = urljoin("http://www.centerfireguns.com/", url)
item = CenterfiregunsItem()
item['ad_url'] = new_url
request = Request(new_url, callback = self.parse_detail)
request.meta['item'] = item
yield request
def parse_detail(self, response):
hxs = HtmlXPathSelector(response)
item = response.meta['item']
#<div class="product-name"><h1 itemprop="name">Adcor Defense BEAR 223 16 OPT RDY</h1>
item['title'] = hxs.select('//div[contains(@class, "product-name")]//h1/text()').extract()
#<div class="product-shop"><span class="regular-price" id="product-price-21339"> <span class="price" itemprop="price">$1,389.00</span> </span>
item['price'] = hxs.select('//div[contains(@class, "product-shop")]//span[contains(@itemprop,"price")][1]/text()').extract()
#<div class="sku"><span>Model #: </span>2013040</div>
item['model'] = hxs.select('//div[contains(@class, "sku")]/text()').extract()
#<img id="image" itemprop="image" src="http://www.centerfireguns.com/media/catalog/product/cache/1/image/292x320/9df78eab33525d08d6e5fb8d27136e95/a/d/adcor-defense-2013040-tactical-rifles.jpg">
item['img_url'] = hxs.select('//img[contains(@id, "image")]/@src').extract()
#<table class="data-table" id="product-attribute-specs-table">
item['specification'] = hxs.select('//table[contains(@id, "product-attribute-specs-table")]/text()').extract()
#<div id="product_tabs_description_tabbed_contents"><h6>Full Description</h6><ol><h2>Details</h2><div class="std">
item['description'] = hxs.select('//div[contains(@id, "product_tabs_description_tabbed_contents")]//div[contains(@class, "std")]/text()').extract()
#new_filemanager.writeFile("/home/user1/Public/www/GajenderData/SCRIPTS/pythonprog/ganesh/centerfireguns_detail.csv",str(title) + "\n")
yield item
这是pipeline.py
# -*- coding: utf-8 -*-
import csv
class CenterfiregunsPipeline(object):
def __init__(self):
self.myCSV = csv.writer(open('/home/user1/Public/www/GajenderData/SCRIPTS/pythonprog/ganesh/centerfireguns_detail.csv', 'wb'))
self.myCSV.writerow(['ad_url','title', 'model','price','img_url','specification','description'])
def process_item(self, item, spider):
self.myCSV.writerow([item['ad_url'].encode('utf-8'),item['title'].encode('utf-8'),item['model'].encode('utf-8'),item['price'].encode('utf-8'),item['img_url'].encode('utf-8'),item['specification'].encode('utf-8'),item['description'].encode('utf-8')])
return item
当我使用 .encode('utf-8') 时出现此错误。请检查下方
Traceback (most recent call last):
File "/usr/lib/python2.7/dist-packages/scrapy/middleware.py", line 54, in _process_chain
return process_chain(self.methods[methodname], obj, *args)
File "/usr/lib/python2.7/dist-packages/scrapy/utils/defer.py", line 65, in process_chain
d.callback(input)
File "/usr/lib/python2.7/dist-packages/twisted/internet/defer.py", line 362, in callback
self._startRunCallbacks(result)
File "/usr/lib/python2.7/dist-packages/twisted/internet/defer.py", line 458, in _startRunCallbacks
self._runCallbacks()
--- <exception caught here> ---
File "/usr/lib/python2.7/dist-packages/twisted/internet/defer.py", line 545, in _runCallbacks
current.result = callback(current.result, *args, **kw)
File "/home/user1/Public/www/GajenderData/SCRIPTS/pythonprog/ganesh/centerfireguns/centerfireguns/pipelines.py", line 14, in process_item
self.myCSV.writerow([item['ad_url'].encode('utf-8'),item['title'].encode('utf-8'),item['model'].encode('utf-8'),item['price'].encode('utf-8'),item['img_url'].encode('utf-8'),item['specification'].encode('utf-8'),item['description'].encode('utf-8')])
**exceptions.AttributeError: 'list' object has no attribute 'encode'**
我是python初学者
最佳答案
以下代码片段作为函数的一部分作为我的宠物项目中函数的一部分,它通过声明一个包含您希望删除的值的字典然后使用替换方法来完全删除您正在寻找的内容在目标文件和字典中的项目上...我确实在文本文件中使用它,所以您必须使用 CSV 编写器和阅读器对其进行调整,但想法是...
name = "file.csv"
infile = name
outfile = name + "_clean.csv"
delete_list = ["['", "']"]
fin = open(infile)
fout = open(outfile, "w+")
for line in fin:
for word in delete_list:
line = line.replace(word, "")
fout.write(line)
fin.close()
fout.close()
此外,也许更 pythonic-hackish 会在您定义项目之前剥离然后加入项目...示例
#...
tit = hxs.select('//div[contains(@class, "product-name")]//h1/text()').extract()
tit = [x.strip() for in in tit]
tit = ''.join()
prc = hxs.select('//div[contains(@class, "product-shop")]//span[contains(@itemprop,"price")][1]/text()').extract()
prc = [x.strip() for x in prc]
prc = ''.join(prc)
item = response.meta['item']
item['title'] = tit
item['price'] = prc
#...
这样你甚至可以避免使用管道(如果管道的唯一原因是编码)......否则你可以取消管道中的编码,如果它为你提供所需的目的...请问为什么需要管道?
关于python - 如何删除 unicode 字符串 "[u' 字符串]"当我写 CSV 文件时,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34460579/
我需要(我必须)将大量 float 写入 qdatastream 并且我只使用 4 个字节是必要的。setFloatingPointPrecision 或为 float 和 double 写入 4 或
我有一些 C 代码,我用 Python 对其进行了扩展。扩展的 C 代码有一个将一些结构附加到二进制文件的函数: void writefunction(const struct struct1* so
我正在用 C 语言开发一个小软件,用于在布告栏中读取和写入消息。每条消息都是一个以渐进数字命名的 .txt。 软件是多线程的,有很多用户可以并发操作。 用户可以进行的操作有: 阅读整个公告板(所有 .
我有 2 个线程同时访问同一个大文件 (.txt)。 第一个线程正在从文件中读取。第二个线程正在写入文件。 两个线程都访问同一个 block ,例如(开始:0, block 大小:10),但具有不同的
我做了很多谷歌搜索,但我仍然不确定如何继续。 Linux 下最常见的剪贴板读写方式是什么?我想要同时支持 Gnome 和 KDE 桌面。 更新:我是否认为没有简单的解决方案,必须将多个来源(gnome
1. 定义配置文件信息 有时候我们为了统一管理会把一些变量放到 yml 配置文件中 例如 图片 用 @ConfigurationProperties 代替 @Value 使用方法 定义对应字段的实体
在开始之前,我必须先声明我是 FORTRAN 的新手。我正在维护 1978 年的一段遗留代码。它的目的是从文件中读取一些数据值,处理这些值,然后将处理过的值输出到另一个文本文件。 给定以下 FORTR
我正在制作一个应用程序,我需要存储用户提供的一些信息。我尝试使用 .plist 文件来存储信息,我发现: NSString *filePath = @"/Users/Denis/Documents/X
在delphi类中声明属性时是否可能有不同类型的结果? 示例: 属性月份:字符串读取monthGet(字符串)写入monthSet(整数); 在示例中,我希望在属性(property)月份中,当我:读
我正在以二进制形式将文件加载到数组中,这似乎需要一段时间有没有更好更快更有效的方法来做到这一点。我正在使用类似的方法写回文件。 procedure openfile(fname:string); va
我想实现一个运行模拟的C#控制台应用程序。另外,我想给用户机会在控制台上按“+”或“-”来加速/减速模拟的速度。 有没有办法在编写控制台时读取控制台?我相信我可以为此使用多线程,但是我却不怎么做(我对
这是我的代码: use std::fs::File; use std::io::Write; fn main() { let f = File::create("").unwrap();
我有一个应用程序可以访问 csv 文本文件中的单词。由于它们通常不会更改,因此我将它们放置在 .jar 文件中,并使用 .getResourceAsStream 调用读取它们。我真的很喜欢这种方法,因
我使用kubeadm,docker 17.12.1-ce和法兰绒网络安装了Kubernetes 1.13.1集群 但是,我发现Kubernetes主服务器上有许多空文件,权限为666,该文件允许任何用
我的工作区中有一些 java 文件。现在我想编写一个java程序,它可以读取来自不同源的文本文件,一次一个,一行一行,并将这些行插入到工作区中各自的java文件中。 文本文件会告诉我将哪个文件插入到哪
用户A要求系统读取文件foo,同时用户B想要将他或她的数据保存到同一个文件中。在文件系统级别如何处理这种情况? 最佳答案 大多数文件系统(但不是全部)使用锁定来保护对同一文件的并发访问。锁可以是独占的
我对保护移动应用程序的 firebase 数据库有一些疑问。 例如,在反编译Android应用程序后,黑客可以获取firebase api key 然后访问firebase数据库,这是正确的吗? 假设
我想让文件从外部不可删除,并希望使用java从程序对该文件进行读/写操作。 S0,我使用以下代码使用java创建了不可删除的文件: Process pcs = Runtime.getRunti
当 Selector.select() 以阻塞模式等待读/写操作时,是否可以将写消息推送到客户端?如何将选择器从阻塞模式移至写入模式?触发器可以是一个后台线程,用于放置需要写入给定 channel 的
我目前正在学习在 Linux 环境中使用 C 进行套接字编程。作为一个项目,我正在尝试编写一个基本的聊天服务器和客户端。 目的是让服务器为每个连接的客户端派生一个进程。 我遇到的问题是读取一个 chi
我是一名优秀的程序员,十分优秀!