- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
目前,我可以从 softpedia.com 获取无尽的爬网链接(包括所需的安装程序链接,例如 http://hotdownloads.com/trialware/download/Download_a1keylogger.zip?item=33649-3&affiliate=22260 )。
spider.py如下:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
class MySpider(CrawlSpider):
""" Crawl through web sites you specify """
name = "softpedia"
# Stay within these domains when crawling
allowed_domains = ["www.softpedia.com"]
start_urls = [
"http://win.softpedia.com/",]
download_delay = 2
# Add our callback which will be called for every found link
rules = [
Rule(SgmlLinkExtractor(), follow=True)
]
items.py、pipelines.py、settings.py 为默认值,但在 settings.py 中添加了一行:
FILES_STORE = '/home/test/softpedia/downloads'
使用 urllib2,我可以判断链接是否是安装程序,在本例中,我在 content_type 中得到“application”:
>>> import urllib2
>>> url = 'http://hotdownloads.com/trialware/download/Download_a1keylogger.zip?item=33649-3&affiliate=22260'
>>> response = urllib2.urlopen(url)
>>> content_type = response.info().get('Content-Type')
>>> print content_type
application/zip
我的问题是,如何收集所需的安装程序链接,并将它们下载到我的目标文件夹?提前致谢!
PS:
我现在找到了两种方法,但我无法让它们工作:
1. https://stackoverflow.com/a/7169241/2092480 ,我按照这个答案将以下代码添加到蜘蛛中:
def parse_installer(self, response):
# extract links
lx = SgmlLinkExtractor()
urls = lx.extract_links(response)
for url in urls:
yield Request(url, callback=self.save_installer)
def save_installer(self, response):
path = self.get_path(response.url)
with open(path, "wb") as f: # or using wget
f.write(response.body)
蜘蛛只是走了,因为这些代码根本不存在,而且我没有下载文件,有人可以看到哪里出了问题吗?
2. https://groups.google.com/forum/print/msg/scrapy-users/kzGHFjXywuY/O6PIhoT3thsJ ,当我在 [“file_urls”] 中提供预定义链接时,此方法本身正在工作。但是如何设置 scrapy 来收集 ["file_urls"] 的所有安装程序链接?另外,我想对于这么简单的任务,上面的方法应该足够了。
最佳答案
我结合了提到的两种方法来获取实际/镜像安装程序下载,然后使用文件下载管道进行实际下载。但是,如果文件下载 URL 是动态/复杂的,例如,它似乎不起作用。 http://www.softpedia.com/dyn-postdownload.php?p=00000&t=0&i=1 。但它适用于更简单的链接,例如http://www.ietf.org/rfc/rfc2616.txt
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.http import Request
from scrapy.contrib.loader import XPathItemLoader
from scrapy import log
from datetime import datetime
from scrapy.conf import settings
from myscraper.items import SoftpediaItem
class SoftpediaSpider(CrawlSpider):
name = "sosoftpedia"
allowed_domains = ["www.softpedia.com"]
start_urls = ['http://www.softpedia.com/get/Antivirus/']
rules = Rule(SgmlLinkExtractor(allow=('/get/', ),allow_domains=("www.softpedia.com"), restrict_xpaths=("//td[@class='padding_tlr15px']",)), callback='parse_links', follow=True,),
def parse_start_url(self, response):
return self.parse_links(response)
def parse_links(self, response):
print "PRODUCT DOWNLOAD PAGE: "+response.url
hxs = HtmlXPathSelector(response)
urls = hxs.select("//a[contains(@itemprop, 'downloadURL')]/@href").extract()
for url in urls:
item = SoftpediaItem()
request = Request(url=url, callback=self.parse_downloaddetail)
request.meta['item'] = item
yield request
def parse_downloaddetail(self, response):
item = response.meta['item']
hxs = HtmlXPathSelector(response)
item["file_urls"] = hxs.select('//p[@class="fontsize16"]/b/a/@href').extract() #["http://www.ietf.org/rfc/rfc2616.txt"]
print "ACTUAL DOWNLOAD LINKS "+ hxs.select('//p[@class="fontsize16"]/b/a/@href').extract()[0]
yield item
关于python - 从 softpedia.com 获取 Scrapy 下载安装程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19774912/
当我尝试通过我的 .exe 文件从 url 下载 .pdf 文件时出现以下错误。 The server committed a protocol violation. Section=Response
我是一家非营利组织的 G Suite 管理员,刚刚发现数据导出功能,这似乎是个人帐户的外卖。 导出文件已准备好,现在可以从 Google Cloud Platform Storage 中的存储桶下载。
导航 引言 总体思路 七牛云相关的配置文件 获取七牛云上传token 相关类定义 核心代码实现 获取七牛云图片下载链接 公开空
这不是后端编程问题。我只能修改标记或脚本(或文档本身)。我在这里问的原因是因为我对适当术语的所有搜索都不可避免地导致有关编程此功能的问题和解决方案。我不是试图通过编程来强制它;我必须找出此 PDF 行
您好,我已在 Google AdSense 中注册,我想使用适用于 iOS 的 SDK,但目前我找不到 SDK 下载链接。 我的申请已获批准。 任何人都知道如何下载这个sdk。 我使用这个链接来描述如
我需要为当前在 SourceForge 上的 github 项目提供二进制文件和文档。在那里,我可以为我需要的下载提供一个目录结构,因为我必须为大约 10 个不同的操作系统提供几个版本。 github
我从 Canvas 下载绘图时遇到问题。这是我的代码: function downloadCanvas(link, canvasId, filename) { link.href =
ASP.NET 项目 我将使用 Azure 进行存储。问题(要求): 在我的项目中,我让注册用户下载文件。但我不希望用户将此下载链接分享给未注册的人(例如:我给注册用户的下载链接只能在他们的计算机上下
我编写了一个servlet,用于检查http header ,但我不知道为什么当页面加载时,它会自动开始下载。 /* * To change this template, choose To
我正在尝试将下载添加到我的网络浏览器,但遇到的问题是获取您尝试下载的文件的名称。这是我的下载代码: engine.locationProperty().addListener(new ChangeLi
我正在尝试下载网站的 html: String encoding = "UTF-8"; HttpContext localContext = new BasicHttpContext();
我制作了一个带有“开始下载”按钮的框架,用于从网站下载 JAR。 问题是每当我点击开始下载按钮时,整个框架就会卡住,直到下载完成,然后就正常了。 我该如何解决这个问题? 这是单击按钮时执行的代码 p
我得到这段代码来实现一些东西,它可以帮助我从给定的 URL 下载文件。 -(void)URLSession:(NSURLSession *)session downloadTask:(NSURLSes
我正在尝试创建一个 Controller 来使用流方法下载和上传文件,在我的例子中,所有文件都作为 Blob 保存在数据库中。我阅读了 Jboss Netty 的文档,但我认为这不是我的最佳解决方案。
下载并保存文件 let destination: DownloadRequest.DownloadFileDestination = { _, _ in // var fileURL = sel
使用 htaccess 我基本上试图禁止访问该页面,即 http://example.com , 但它仍然允许人们下载文件,如果他们有直接链接即 http://example.com/hi.zip .
我正在寻求将脚本与我的控制面板集成,并且由于我是新手脚本编写者而遇到问题。我想做的是用 1 个脚本下载一个文件并解压它。 示例: wget http://example.com/example.tar
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 7 年前。
这个问题在这里已经有了答案: Top techniques to avoid 'data scraping' from a website database (14 个答案) 关闭 5 年前。 我有
这个问题在这里已经有了答案: Reading and parsing email from Gmail using C#, C++ or Python (6 个答案) 关闭 7 年前。 我只是想,是
我是一名优秀的程序员,十分优秀!