R - 使用 PhantomJS 等待页面在 RSelenium 中加载-6ren

R - 使用 PhantomJS 等待页面在 RSelenium 中加载

转载作者：行者123 更新时间：2023-12-02 04:39:35

26

4

我组装了一个粗糙的抓取工具，可以从 Expedia 上抓取价格/航空公司:

# Start the Server
rD <- rsDriver(browser = "phantomjs", verbose = FALSE)

# Assign the client
remDr <- rD$client

# Establish a wait for an element
remDr$setImplicitWaitTimeout(1000)

# Navigate to Expedia.com
appurl <- "https://www.expedia.com/Flights-Search?flight-type=on&starDate=04/30/2017&mode=search&trip=oneway&leg1=from:Denver,+Colorado,to:Oslo,+Norway,departure:04/30/2017TANYT&passengers=children:0,adults:1"
remDr$navigate(appURL)

# Give a crawl delay to see if it gives time to load web page
Sys.sleep(10)   # Been testing with 10

###ADD JAVASCRIPT INJECTION HERE###
remDr$executeScript(?)

# Extract Prices
webElem <- remDr$findElements(using = "css", "[class='dollars price-emphasis']")
prices <- unlist(lapply(webElem, function(x){x$getElementText()}))
print(prices)

# Extract Airlines
webElem <- remDr$findElements(using = "css", "[data-test-id='airline-name']")
airlines <- unlist(lapply(webElem, function(x){x$getElementText()}))
print(airlines)

# close client/server
remDr$close()
rD$server$stop()

如您所见，我内置了一个 ImplicitWaitTimeout 和一个 Sys.Sleep 调用，以便页面有时间在 phantomJS 中加载并且不要让网站因请求而重载。

一般来说，在日期范围内循环时，抓取工具运行良好。但是，当连续循环 10 个以上日期时，Selenium 有时会抛出 StaleElementReference 错误并停止执行。我知道这是因为页面尚未完全加载，并且 class='dollars Price-emphasis' 尚不存在。 URL 构造很好。

只要页面成功加载完毕，抓取工具就会获得近 60 个价格和航类。我之所以提到这一点，是因为有时脚本仅返回 15-20 个条目(通常在浏览器上检查此日期时，有 60 个条目)。在这里，我得出的结论是，我只找到了 60 个元素中的 20 个，这意味着页面仅部分加载。

我想通过注入(inject) JavaScript 来使该脚本更加健壮，在查找元素之前等待页面完全加载。我知道执行此操作的方法是 remDr$executeScript()，并且我找到了许多有用的 JS 片段来完成此操作，但由于 JS 知识有限，我在将这些解决方案适应在语法上使用我的脚本。

以下是 Wait for page load in Selenium 提出的几种解决方案& Selenium - How to wait until page is completely loaded :

基本代码:

remDr$executeScript(
WebDriverWait wait = new WebDriverWait(driver, 20);
By addItem = By.cssSelector("class=dollars price-emphasis");, args = list()
)

对基本脚本的添加:

1) 检查元素是否陈旧

# get the "Add Item" element
WebElement element = wait.until(ExpectedConditions.presenceOfElementLocated(addItem));
# wait the element "Add Item" to become stale
wait.until(ExpectedConditions.stalenessOf(element));

2) 等待元素可见

wait.until(ExpectedConditions.visibilityOfElementLocated(addItem));

我尝试过使用remDr$executeScript("return document.readyState").equals("complete") 作为继续抓取之前的检查，但页面始终显示为完整，即使不是。

有人对我如何调整这些解决方案之一以与我的 R 脚本一起使用有任何建议吗？关于如何完全等待页面加载近 60 个找到的元素，有什么想法吗？我仍在学习，所以任何帮助将不胜感激。

最佳答案

使用 while/tryCatch 的解决方案:

remDr$navigate("<webpage url>")
webElem <-NULL
while(is.null(webElem)){
  webElem <- tryCatch({remDr$findElement(using = 'name', value = "<value>")},
  error = function(e){NULL})
 #loop until element with name <value> is found in <webpage url>
}

关于R - 使用 PhantomJS 等待页面在 RSelenium 中加载，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43402237/

26

4

0

文章推荐： php - 无需命令行即可在简单服务器上安装 Laravel

文章推荐： java - 使 JLabel 背景在有背景的框架中透明

文章推荐： ios - 生成 MDM 证书

等待
我试图让脚本暂停大约 1 秒，然后继续执行脚本，但我似乎无法弄清楚如何做。这是我的代码: function hello() { alert("Hi!") //I need about a 1
java - 等待()/等待(超时)/ sleep (超时)？
wait() 和 wait(timeout) 之间有什么区别。无论如何 wait() 需要等待通知调用，但为什么我们有 wait(timeout)？那么 sleep(timeout) 和 wait(
javascript - 运行PHP，等待；运行 JavaScript，等待；然后提交表格？
我需要做什么: 我有一个带有文件输入和隐藏文本输入的上传表单。用户上传图像，图像被操作，然后发送到远程服务器进行处理，这需要几秒钟，然后远程服务器将最终的图像发送回家庭服务器，并保存在新文件夹中。 J
c++ - 为什么我的 Winsock 应用程序有时在 listen() 等待，有时在 accept() 等待？
大家好，我正在使用 Visual C++ 2010，尝试使用 Winsock 编写服务器/客户端应用程序...我不确定为什么，但有时服务器会在 listen() 函数处等待，有时会在 accept 处
javascript - IE 10 等待 XMLHttpRequest 等待 6 分钟然后响应请求(使用 AngularJS 的 CRSF 实现)
任务描述我为我的 Angular 应用程序实现了 CRSF 保护。服务器检查 crsf token 是否位于请求的 header “X-CSRF-TOKEN”中。如果不是，它会发送一个 HTTP 响
通用循环中的javascript异步/等待
我想做这个例子https://stackoverflow.com/a/33585993/1973680同步。这是正确的实现方式吗？ let times= async (n,f)=>{
Java延迟/等待
我如何将 while 循环延迟到 1 秒间隔，而不会将其运行的整个代码/计算机的速度减慢到一秒延迟(只是一个小循环)。最佳答案 Thread.sleep(1000); // do nothing f
java - 等待，通知来自同步上下文的方法
我知道这是一个重复的问题。但是我无法通过解释来理解。我想用一个很好的例子来清楚地理解它。任何人都可以帮忙吗。 “为什么我们从同步上下文中调用 wait()、notify() 方法”。最佳答案当我们
jquery - 虽然变量未定义 - 等待
我有一个 click 事件，该事件是第一次从另一个地方自动触发的。我的问题是它运行得太快，因为所需的变量仍在由 Flash 和 Web 服务定义。所以现在我有: (function ($) {
javascript - 取消异步/等待
我有如下功能 function async populateInventories(custID){ this.inventories = await this.inventoryServic
javascript - 等待 ".then"解决
我一直对“然后”不被等待的行为感到困扰，我明白其原因。然而，我仍然需要绕过它。这是我的用例。 doWork(family) { return doWork1(family)
dart - 如何在Dart中实现异步/等待
我想我理解异步背后的想法，返回一个Future，但是我不清楚异步在一个非常基本的层面上如何表现。据我了解，它不会自动在程序中创建异步行为。例如: import 'dart:async'; main()
dart - Dart中的异步/等待
我正在制作一个使用异步的Flutter应用程序，但它的工作方式不像我对它的了解。所以我对异步和在 Dart 中等待有一些疑问。这是一个例子: Future someFunction() async {
azure - 等待\依赖于模块中父级中的资源
我在 main.tf 中创建资源组和 vNet，并在同一文件中引用模块。问题是，模块无法从模块访问这些资源。相关代码(删除了大部分代码，只留下相关部分): main.tf: module "worke
javascript - 等待 promise ？
我的代码的问题是，当代码第一次运行时，我试图获取的 dom 元素并不总是存在，如果它不存在，那么永远不会做出 promise 。我是否可以等到 promise 做出后再尝试实现它？我希望我的最后一
javascript - 如何在我的代码中实现回调/等待？
所以，过去几天我一直在研究这段代码，并尝试实现回调/等待/任何需要的东西，但没有成功。问题是，我如何等待响应，直到我得到两个函数的回调？ (以及我将如何实现) 简而言之，我想做的是: POST 发生
java - 调用同步/等待？
谁能帮我理解这一点吗？如果我们有一个类: public class Sample{ public synchronized method1(){ //Line1 .... wait();
java - 等待 - 通知工作？
这是我编写的代码，用于测试 wait() 和 notify() 的工作。现在我有很多疑问。 class A extends Thread { public void run() { try
函数外的javascript变量(使用异步/等待)？
我有以下代码由于语法错误而无法运行(在异步函数外等待) 如何使用 await 定义变量并将其导出？当我这样定义一个变量并从其他文件导入它时，该变量是只创建一次(第一次读取文件时？)还是每次导入时都创
Java 等待/通知全部
一个简单的线程程序，其中写入器将内容放入堆栈，读取器从堆栈中弹出。 java.util.Stack; import java.util.concurrent.ExecutorService; impo

首页

博学

6Ren·AI

商城

R - 使用 PhantomJS 等待页面在 RSelenium 中加载