- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
所以我试图从给定的网站下载多个文件并保存到一个文件夹中。我正在尝试获取高速公路数据,在他们的网站 ( http://www.wsdot.wa.gov/mapsdata/tools/InterchangeViewer/SR5.htm ) 中有一个 pdf 链接列表。我想创建一个代码来提取在他们网站上找到的大量 pdf。也许创建一个循环,该循环将遍历网站并将每个文件提取并保存到我桌面上的本地文件夹中。有人知道我该怎么做吗?
最佳答案
这是一个需要编码解决方案的问题。我可以为您指出一些可用于完成此操作的工具,但不是完整的代码解决方案。
请求库:与 HTTP 服务器(网站)通信
http://docs.python-requests.org/en/latest/
BeautifulSoup: Html Parser(网站源码解析)
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
例子:
>>> import requests
>>> from bs4 import BeautifulSoup as BS
>>>
>>> response = requests.get('http://news.ycombinator.com')
>>> response.status_code # 200 == OK
200
>>>
>>> soup = BS(response.text) # Create a html parsing object
>>>
>>> soup.title # Heres the browser title tag
<title>Hacker News</title>
>>>
>>> soup.title.text # The contents of the tag
u'Hacker News'
>>>
>>> # Heres some article posts
...
>>> post_containers = soup.find_all('tr', attrs={'class':'athing'})
>>>
>>> print 'There are %d article posts.' % len(post_containers)
There are 30 article posts.
>>>
>>>
>>> # The article name is the 3rd and last object in a post_container
...
>>> for container in post_containers:
... title = container.contents[-1] # The last tag
... title.a.text # Grab the `a` tag inside our titile tag, print the text
...
u'Show HN: \u201cWho is hiring?\u201d Map'
u'\u2018Flash Boys\u2019 Programmer in Goldman Case Prevails Second Time'
u'Forthcoming OpenSSL releases'
u'Show HN: YouTube Filesystem \u2013 YTFS'
u'Google launches Uber rival RideWith'
u'Finish your stuff'
u'The Plan to Feed the World by Hacking Photosynthesis'
u'New electric engine improves safety of light aircraft'
u'Hacking Team hacked, attackers claim 400GB in dumped data'
u'Show HN: Proof of concept \u2013 Realtime single page apps'
u'Berkeley CS 61AS \u2013 Structure and Interpretation of Computer Programs, Self-Paced'
u'An evaluation of Erlang global process registries: meet Syn'
u'Show HN: Nearby Buzz \u2013\xa0Take control of your online reviews'
u"The Grateful Dead's Wall of Sound"
u'The Effects of Intermittent Fasting on Human and Animal Health'
u'JsCoq'
u'Taking stock of startup innovation in the Netherlands'
u'Hangout: Becoming a freelance developer'
u'Panning for Pangrams: The Search for the New Quick Brown Fox'
u'Show HN: MUI \u2013 Lightweight CSS Framework for Material Design'
u"Intel's 10nm 'Cannonlake' delayed, replaced by 14nm 'Kaby Lake'"
u'VP of Logistics \u2013 EasyPost (YC S13) Hiring'
u'Colorado\u2019s Effort Against Teenage Pregnancies Is a Startling Success'
u'Lexical Scanning in Go (2011)'
u'Avoiding traps in software development with systems thinking'
u"Apache Cordova: after 10 months, I won't using it anymore"
u'An exercise in profiling a Go program'
u"The Science of Pixar's \u2018Inside Out\u2019"
u'Ask HN: What tech blogs, podcasts do you follow outside of HN?'
u'NASA\u2019s New Horizons Plans July 7 Return to Normal Science Operations'
>>>
关于python - 如何使用python从网站下载多个文件和图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31251293/
当我尝试通过我的 .exe 文件从 url 下载 .pdf 文件时出现以下错误。 The server committed a protocol violation. Section=Response
我是一家非营利组织的 G Suite 管理员,刚刚发现数据导出功能,这似乎是个人帐户的外卖。 导出文件已准备好,现在可以从 Google Cloud Platform Storage 中的存储桶下载。
导航 引言 总体思路 七牛云相关的配置文件 获取七牛云上传token 相关类定义 核心代码实现 获取七牛云图片下载链接 公开空
这不是后端编程问题。我只能修改标记或脚本(或文档本身)。我在这里问的原因是因为我对适当术语的所有搜索都不可避免地导致有关编程此功能的问题和解决方案。我不是试图通过编程来强制它;我必须找出此 PDF 行
您好,我已在 Google AdSense 中注册,我想使用适用于 iOS 的 SDK,但目前我找不到 SDK 下载链接。 我的申请已获批准。 任何人都知道如何下载这个sdk。 我使用这个链接来描述如
我需要为当前在 SourceForge 上的 github 项目提供二进制文件和文档。在那里,我可以为我需要的下载提供一个目录结构,因为我必须为大约 10 个不同的操作系统提供几个版本。 github
我从 Canvas 下载绘图时遇到问题。这是我的代码: function downloadCanvas(link, canvasId, filename) { link.href =
ASP.NET 项目 我将使用 Azure 进行存储。问题(要求): 在我的项目中,我让注册用户下载文件。但我不希望用户将此下载链接分享给未注册的人(例如:我给注册用户的下载链接只能在他们的计算机上下
我编写了一个servlet,用于检查http header ,但我不知道为什么当页面加载时,它会自动开始下载。 /* * To change this template, choose To
我正在尝试将下载添加到我的网络浏览器,但遇到的问题是获取您尝试下载的文件的名称。这是我的下载代码: engine.locationProperty().addListener(new ChangeLi
我正在尝试下载网站的 html: String encoding = "UTF-8"; HttpContext localContext = new BasicHttpContext();
我制作了一个带有“开始下载”按钮的框架,用于从网站下载 JAR。 问题是每当我点击开始下载按钮时,整个框架就会卡住,直到下载完成,然后就正常了。 我该如何解决这个问题? 这是单击按钮时执行的代码 p
我得到这段代码来实现一些东西,它可以帮助我从给定的 URL 下载文件。 -(void)URLSession:(NSURLSession *)session downloadTask:(NSURLSes
我正在尝试创建一个 Controller 来使用流方法下载和上传文件,在我的例子中,所有文件都作为 Blob 保存在数据库中。我阅读了 Jboss Netty 的文档,但我认为这不是我的最佳解决方案。
下载并保存文件 let destination: DownloadRequest.DownloadFileDestination = { _, _ in // var fileURL = sel
使用 htaccess 我基本上试图禁止访问该页面,即 http://example.com , 但它仍然允许人们下载文件,如果他们有直接链接即 http://example.com/hi.zip .
我正在寻求将脚本与我的控制面板集成,并且由于我是新手脚本编写者而遇到问题。我想做的是用 1 个脚本下载一个文件并解压它。 示例: wget http://example.com/example.tar
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 7 年前。
这个问题在这里已经有了答案: Top techniques to avoid 'data scraping' from a website database (14 个答案) 关闭 5 年前。 我有
这个问题在这里已经有了答案: Reading and parsing email from Gmail using C#, C++ or Python (6 个答案) 关闭 7 年前。 我只是想,是
我是一名优秀的程序员,十分优秀!