- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我想加载一个网页并列出该页面的所有加载资源(javascript/images/css)。我使用此代码加载页面:
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get('http://example.com')
上面的代码运行良好,我可以对 HTML 页面进行一些处理。问题是,如何列出该页面加载的所有资源?我想要这样的东西:
['http://example.com/img/logo.png',
'http://example.com/css/style.css',
'http://example.com/js/jquery.js',
'http://www.google-analytics.com/ga.js']
我也对其他解决方案持开放态度,例如使用 PySide.QWebView
模块。我只想列出页面加载的资源。
最佳答案
这不是 Selenium 解决方案,但它可以很好地与 python 和 PhantomJS 配合使用。
这个想法与 Chrome 开发者工具中的“网络”选项卡完全相同。为此,我们必须听取网页发出的每个请求。
使用 phantomjs,这可以使用这个脚本来完成,在你自己方便的时候使用它:
// getResources.js
// Usage:
// ./phantomjs --ssl-protocol=any --web-security=false getResources.js your_url
// the ssl-protocol and web-security flags are added to dismiss SSL errors
var page = require('webpage').create();
var system = require('system');
var urls = Array();
// function to check if the requested resource is an image
function isImg(url) {
var acceptedExts = ['jpg', 'jpeg', 'png'];
var baseUrl = url.split('?')[0];
var ext = baseUrl.split('.').pop().toLowerCase();
if (acceptedExts.indexOf(ext) > -1) {
return true;
} else {
return false;
}
}
// function to check if an url has a given extension
function isExt(url, ext) {
var baseUrl = url.split('?')[0];
var fileExt = baseUrl.split('.').pop().toLowerCase();
if (ext == fileExt) {
return true;
} else {
return false;
}
}
// Listen for all requests made by the webpage,
// (like the 'Network' tab of Chrome developper tools)
// and add them to an array
page.onResourceRequested = function(request, networkRequest) {
// If the requested url if the one of the webpage, do nothing
// to allow other ressource requests
if (system.args[1] == request.url) {
return;
} else if (isImg(request.url) || isExt(request.url, 'js') || isExt(request.url, 'css')) {
// The url is an image, css or js file
// add it to the array
urls.push(request.url)
// abort the request for a better response time
// can be omitted for collecting asynchronous loaded files
networkRequest.abort();
}
};
// When all requests are made, output the array to the console
page.onLoadFinished = function(status) {
console.log(JSON.stringify(urls));
phantom.exit();
};
// If an error occur, dismiss it
page.onResourceError = function(){
return false;
}
page.onError = function(){
return false;
}
// Open the web page
page.open(system.args[1]);
现在用 python 调用代码:
from subprocess import check_output
import json
out = check_output(['./phantomjs', '--ssl-protocol=any', \
'--web-security=false', 'getResources.js', your_url])
data = json.loads(out)
希望对你有帮助
关于python - 如何使用 Selenium/PhantomJS 列出加载的资源?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19786525/
有人告诉我,如果我只有一个“东西”,比如家(不是多个家),我应该在 routes.rb 中使用资源 :home,而不是资源 :home。但是当我查看路由时,POST 函数似乎想要 home#creat
Activity 开始。这些代码框架顺利通过。 // Initialize array adapters. One for already paired devices and //
资源 search-hadoop.com search-hadoop.com索引所有邮件列表,非常适合历史搜索。当你遇到问题时首先在这里搜索,因为很可能有人已经遇到了你的问题。 邮件列表 在A
我是 WPF 的新手,正在努力使用位于单独程序集中的样式。这就是我正在做的:- 我有一个带有\Themes 文件夹的类库项目,其中包含一个“generic.xaml”,它合并了\Themes 内的子文
我正在编写一个使用虚拟树状文件结构的插件。基本上它就像一个包含文件的标准文件系统,区别在于这些文件实际上并不存在于文件系统中的特定位置,而只是 java 对象。 这些当前由使用 SettingProv
如果我在 XAML 中使用以下内容,我会收到错误消息: 错
我正在使用 laravel 资源来获取 api 的数据: return [ 'id' => $this->id, 'unread' =>
我有以下 pom.xml: 4.0.0 mycompany resource-fail 0.0.1-SNAPSHOT BazBat
许多GDI +类都实现IDisposable,但是我不确定何时应该调用Dispose。对于使用new或静态方法(例如Graphics.CreateGraphics)创建的实例来说,这很明显。但是,由属
我正在构建一组 RESTful 资源,其工作方式如下:(我将使用“people”作为示例): 获取/people/{key} - 返回一个人对象 (JSON) GET/people?first_nam
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我有一个使用 $resource 的简单 Controller : var Regions = $resource('mocks/regions.json'); $scope.regions =
在 Azure 门户中,如何查看不同资源之间的依赖关系。我特别想查看哪些资源正在使用我要删除的存储。 最佳答案 您可以使用应用程序洞察应用程序 map 来执行此操作: 您还可以打开存储帐户的日志记录:
我正在使用 ionic 生成资源(图标和启动画面)。我正在使用 ionic v2.1.0 和 cordova v6.4.0。 到目前为止我一直在使用(它在以前的版本中工作): cordova plat
是否可以使用 Assets 包含子文件夹中的文件? 示例:[base_url]/assets/css/pepper-grinder/jquery-ui-1.8.11.custom.min.css 最佳
我正在阅读一些尝试教授 Android 开发的书。在书中,作者概述了 res/下的一些目录。他提到 res/menu 包含基于 XML 的菜单规范。他还提到了保存“通用文件”的 res/raw。当我创
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
我在服务器上使用 express-resource。在我的 AngularJS Controller 中: var User = $resource('/services/users/:use
因此,每当我运行我的应用程序时,它都会立即崩溃并给出以下错误: No package identifier when getting value for resource number 0x00000
对于我正在创建的(网络)应用程序,我需要使用基本身份验证在我的 UIWebView 中加载页面。 现在设置我使用的授权 header : NSString *result = [NSString st
我是一名优秀的程序员,十分优秀!