- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我已经从蜘蛛中抓取了项目,我正在编写另一个蜘蛛,它使用搜索引擎来填充一些缺失的数据。我想逐行更新第一个蜘蛛的项目。
但是,我不知道如何从 __init__ 方法传递当前行或 start_url。
我知道我可以将 meta 中的 request.url 传递给子请求,然后解析 meta 以提取公司名称,但看起来很尴尬。
class DuckDuckGoComSpider(scrapy.Spider):
name = 'duckduckgo.com'
def __init__(self, csv_file_path, *args, **kwargs):
self.csv_file_path = csv_file_path
super(DuckDuckGoComSpider, self).__init__(*args, **kwargs)
with open(csv_file_path, newline='') as csvfile:
for row in csv.DictReader(csvfile):
self.start_urls.append(
f'https://duckduckgo.com/html/?q="website" {row["name"]} {row["location"]}')
def parse(self, response):
results = list(response.css('.result__url::attr(href)'))
if len(results) > 0:
for i in range(6):
yield response.follow(results[i], callback=self.parse_item)
else:
self.logger.debug('No more products')
def parse_item(self, response):
il = DDGItemLoader(response=response)
il.add_value('url', response.url)
il.add_css('title', 'meta[property="og:title"]::attr(content)')
il.add_css('description',
'meta[property="og:description"]::attr(content)')
item = il.load_item()
yield item
最佳答案
如 casper 所述,有几种方法可以将值传递给解析方法:
start_requests()
中编写请求并在 meta
中传递所需数据使用 meta
看起来像这样:
class DuckDuckGoComBatchSpider(scrapy.Spider):
name = 'duckduckgo_batch.com'
def __init__(self, csv_file_path, *args, **kwargs):
self.csv_file_path = csv_file_path
super(DuckDuckGoComBatchSpider, self).__init__(*args, **kwargs)
def start_requests(self):
pages = []
with open(self.csv_file_path, newline='') as csvfile:
reader = csv.DictReader(csvfile)
self.fieldnames = reader.fieldnames
for row in reader:
url = f'https://duckduckgo.com/html/?q="website" {row["name"]} {row["location"]}'
meta = {}
for f in reader.fieldnames:
meta[f] = row[f]
page = scrapy.Request(url, callback=self.parse, meta=meta)
pages.append(page)
return pages
def parse(self, response):
results = list(response.css('.result__url::attr(href)'))
if len(results) > 0:
yield response.follow(results[0], callback=self.parse_item,
meta=response.meta)
else:
self.logger.debug('No more products')
def parse_item(self, response):
il = DDGItemLoader(response=response)
il.add_value('website', response.url)
il.add_css('website_title', 'meta[property="og:title"]::attr(content)')
il.add_css('website_description',
'meta[property="og:description"]::attr(content)')
il.add_value('name', response.meta["name"])
item = il.load_item()
for key in response.meta:
if key in self.fieldnames:
item[key] = response.meta[key]
yield item
关于python - 使用没有元数据的 start_url 将额外值传递给 Scrapy 蜘蛛,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49617989/
我配置了我的RouteInitializer如下: class AppRouteInitializer implements RouteInitializer { init(Router rout
我正在尝试从 Android 应用程序发送短信。我正在使用 PendingIntent 以便我可以使用 Broadcast Receiver 检查它是否发送正常。由于 sendTextMessage
目录 简介 1 "额外"字段是什么 1.1 "额外"是指与业务无关 1.2 产生
应用程序读取 JSON 数据。然后它会将其放入 ListView (正确),但在按下某个项目后,我总是会得到显示的相同值。下面的代码我认为是问题所在,但我找不到。 try{ JSONArray
我正在使用以下代码 (Kotlin) 创建通知 val builder = NotificationCompat.Builder(ctx) ........ .set
我有一个问题。现在我正在使用 3 个面板,mainPanel 和其他 2 个面板(btnPanel 和 iconPanel)。所以问题是当我按下“重置”按钮时,我删除了 iconPanel 并再次添加
这是我的 html: Settings Export Import 和CSS: span.button { float:right; margin-righ
我正在尝试将一个结构编码为 JSON,然后将其插入我的 Mongo 数据库,但不断出现此错误:%!(EXTRA main.Test={575590180 Me})。我究竟做错了什么?我完全从我从事的另
嘿,我遇到了这些 latex 格式问题,有人可以提供一些帮助吗? .tex 文件: \begin{table}{} \renewcommand{\arraystretch}{1.1} \c
我在 FragmentPagerAdapter 中使用了 Fragment 的 ArrayList。 我想在 saveState() 中保存此 ArrayList 的状态,并在 restoreStat
我做了this MapKit-教程 一切正常,但如何为我的 pin 添加额外的属性? 这是我的课车: import Foundation import MapKit class Car: NSObje
关于 Android intent 将提供的附加功能有哪些文档? 更新: 我做了一些进一步的调查。我知道我们可以假设每个 Intent 都不会解析任何数据或额外内容,除非有明确记录。此外,一些(但不是
我在 python3.4.3 上使用 SqlAlchemy 来管理 MySQL 数据库。我正在创建一个表: from datetime import datetime from sqlalchemy
我正在使用 bootstrap 创建网页。我在两个 block (内容和标题)上派生了正文。在内容 block 中,我有 div 类 .container .sameTable 在里面我有 div 类
我在Windows 7上的MinGW和MSYS下使用gfortran构建了一些fortran程序。但是当我在未安装MinGW和MSYS的其他计算机上运行它们时,系统总是要求一些dll,例如libgfo
第一个元素的右侧似乎有额外的间距,我不知道它是从哪里来的。有人可以帮助我吗? 这是我使用的代码: http://jsfiddle.net/srabeat/tenx4y1c/1/ for (i = 0;
我使用 fs-extra 收到以下错误: ERROR { [Error: EPERM: operation not permitted, unlink 'C:\Projects\xxx\branche
我正在尝试在 CBC 模式下使用 AES-128 加密 320 字节的二进制数据,并将密码存储到一个文件中。输出文件应该是 320 字节,但我得到了 336 字节。这是我的代码: #include
我有一个特定的要求,我必须从我的 Activity 中触发浏览器上的 url。我可以使用以下代码执行此操作: Intent browserIntent = new Intent( Intent.A
我正在使用 JMS DI 注入(inject)带有注解的服务: use JMS\DiExtraBundle\Annotation as DI; /** * @DI\Service("foo.bar.
我是一名优秀的程序员,十分优秀!