- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 Rcrawler 来抓取 url 向量。对于大多数人来说,它运行良好,但时不时地他们中的一个人不会被抓取。起初我只是在 https://网站上注意到这一点,该网站的地址为 here 。但我使用的是 0.1.7 版本,它应该具有 https://功能。
我还发现了this other user谁有同样的问题,但也有 http://链接。我检查了我的实例,他的网站也没有为我正确抓取。
以下是我尝试抓取这些网站之一时得到的结果:
>library(Rcrawler)
>Rcrawler("https://manager.submittable.com/beta/discover/?page=1&sort=")
>In process : 1..
Progress: 100.00 % : 1 parssed from 1 | Collected pages: 1 |
Level: 1
+ Check INDEX dataframe variable to see crawling details
+ Collected web pages are stored in Project folder
+ Project folder name : manager.submittable.com-191922
+ Project folder path : /home/anna/Documents/Rstudio/Submittable/manager.submittable.com-191922
有什么想法吗?仍在等待创建者的回复。
最佳答案
您尝试抓取受密码保护的+ javascript 页面,您需要一个 Web 驱动程序来创建登录 session 并呈现 javascript 元素,因此,Rcrawler V 0.1.9 实现了 phantomjs webdriver 。
对于您的情况,首先安装最新版本的 Rcrawler,然后按照以下步骤操作:
1 - 安装网络驱动程序(实际上是phantomjs)
library(Rcrawler)
install_browser()
2 - 运行 headless 浏览器(一个真正的浏览器,但不可见 br <-run_browser()
如果出现错误,这意味着您的操作系统或防病毒软件正在阻止 Web 驱动程序 (phantom.js) 进程,请尝试暂时禁用防病毒软件或调整系统配置以允许 phantomjs 和 processx 可执行文件
3-验证 session
br<-LoginSession(Browser = br, LoginURL = 'https://manager.submittable.com/login',
LoginCredentials = c('your login','your pass'),
cssLoginFields =c('#email', '#password'),
XpathLoginButton ="//*[@type=\'submit\']" )
4 - 抓取网站页面
Rcrawler(Website ="https://manager.submittable.com/beta/discover/",no_cores = 1,no_conn = 1, LoggedSession = br, RequestsDelay = 3)
您可以使用以下方式访问网络驱动程序功能:
br$session$
RequestsDelay:每个请求延迟 3 秒,因为知道某些 javascript 需要一些时间才能完全加载
no_cores=no_conn=1:一页一页地检索页面,因为某些网站拒绝多个记录的 session 。
这应该抓取受密码保护的网页,但是,较大的网站具有针对网页抓取的高级保护,例如 reCAPTCHA 或其他检测连续/自动请求的 http/javascript 规则。因此,如果他们提供 API,最好使用他们的 API。
我们仍在努力提供在一个命令中抓取多个网站的能力。到目前为止,您只能单独抓取每个网站,如果您想从同一网站抓取网址/页面,则可以使用 ContentScraper 功能
Rcrawler创建者
关于爬虫包: Rcrawler not crawling some websites,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49944299/
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我有自己的网站并且存储了图片,但是当我尝试在 leagueoflegends.com 等网站的帖子上分享它们时,链接显示但图片不显示,这在我试图将我的图片发布到的所有网站中都会发生,我也使用图像链接:
我有一个 Web 服务器,我在其上应用不同的重写规则以重定向所有 http(s)://*.website.com对同一 URL 的请求:https://website.com .一切都按预期正常工作。
我为网站生成的证书有问题(在此处称为website.com)。 我可以输入浏览器http://www.website.com,并根据需要成功重定向到https://website.com(使用let'
现在我的网站是基于 PHP 和 Mysql 构建的。将其视为一个论坛。现在,当用户在我的网站 1(例如 www.website1.com)中发布回复时,我希望能够在我的姐妹网站中显示起始线程及其相关回
如果我通过 website.com 登录,然后输入 www.website.com,它不会显示我已登录,我必须再次执行此操作。有什么问题吗? 最佳答案 这是正常的。 session cookie 适用
我对 PHP 编码有些熟悉,但现在我正在使用 phpMyAdmin,并且在最基本的事情上遇到了问题。 我想使用给定的网站链接+零件号更新网站链接。 partnumber 在同一个表中给出。像这样的事情
我想将所有来自 www.website.com/whatever 的请求重定向到没有 www 的变体。如何在 Rails 中执行此操作?最佳方法是什么? 最佳答案 对此有两种选择。如果您想在 rail
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: What’s the point in having “www” in a URL? 您好,我几乎没有拥有网
我可以将 website.com/index.php 重定向到 website.com/home 但我找不到重定向 website.com< 的方法 到 website.com/home 我试过 Re
已关闭。此问题旨在寻求有关书籍、工具、软件库等的建议。不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以
历经千辛万苦,我终于在我的网站上安装了 SSL 证书。现在,我可以添加 secure:always 行到 app.yaml 文件,它将所有链接重定向到 https。这很好用,除了 GAE 上的自定义域
如果 Google 的关键字规划器向我显示关键字“Web Design [city-name]”获得约 880 次搜索,而“Website Design [city-name]”获得约 620 次搜索
我知道这是一个开放式问题,但希望在线程被锁定之前它能得到一些好的答案... 我想知道有什么方法可以从客户端的角度以编程方式检查(与语言无关)网站是否在线(假设您不能对站点/服务器进行更改,但您可以依赖
我很好奇如何使网站移动设备友好..那么什么是最佳尺寸以及我如何让网站弄清楚它们是否在移动设备上。我还需要对我的设计和编码进行哪些限制才能使页面更无故障且加载速度更快... 最佳答案 这里真的有两个主要
我被要求找到一种明智的方法,让大多数流行网站检测我们的浏览器——它功能完整,但运行在相当受限的硬件上——作为“移动”浏览器。这个想法是,最流行的网站似乎都有移动版本,它的渲染速度更快,更适合屏幕。 我
有没有办法检测手机和手持设备上的 3G 和 2G 连接? 例如,如果我想在用户使用 3G 时提供高端网站,如果用户使用 2G 则提供高度优化的网站。 最佳答案 在 Android 2.2+ 中,有一个
我想添加一些统计数据——用户向其他用户发送了多少消息。现在,用户将转到他的面板并看到该号码。我应该执行吗 SELECT count(*) from MESSAGES where id=user.id
我已经在我的 php 网页中添加了代码,例如... 比之后 https://developers.google.com/speed建议 指定字符集 避免在元标记中使用字符集 最佳答案 使用 HTTP
我可以在我的移动网站中使用 cookie 或 session 对象来控制从 PHP 页面登录吗? 最佳答案 是的。 手机使用的网络浏览器通常支持 cookie(除非手机真的很旧),因此基于 cooki
我是一名优秀的程序员,十分优秀!