gpt4 book ai didi

java - 如何使用 Selenium 下载网页源

转载 作者:行者123 更新时间:2023-12-02 06:32:14 24 4
gpt4 key购买 nike

我刚刚开始使用 Selenium Web Driver,但遇到了一个问题:我想将网页的源代码下载到我的 Java 程序中。我尝试过将 driver.getPageSource()HtmlUnit 驱动程序一起使用,但我得到的结果与我手动执行以下操作时得到的结果并不完全匹配:

右键点击浏览器->查看页面源代码。

我无法弄清楚问题出在哪里。是否有不同的 API 适合我的目的,或者我在这里使用了错误的驱动程序?我应该使用 chrome 驱动程序而不是 HtmlUnit 驱动程序吗?如果是,如何使用chrome驱动?

这就是我正在做的事情:

    WebDriver driver = new HtmlUnitDriver();
driver.get(webPage);
System.out.println(driver.getPageSource());

最佳答案

我刚刚查看了 Fluent Selenium它使用 Firefox WebDriver。它是一个测试框架,因此不要对断言方法的存在感到惊讶。它可以用于爬行。只需很少的配置就可以完美地工作。它需要 Maven 才能运行,这是我的工作示例:

package fluent;

import org.openqa.selenium.WebDriver;
import org.openqa.selenium.firefox.FirefoxDriver;
import org.seleniumhq.selenium.fluent.FluentWebDriver;
import org.seleniumhq.selenium.fluent.Period;
import org.seleniumhq.selenium.fluent.TestableString;

import java.util.concurrent.TimeUnit;

import static org.openqa.selenium.By.className;

public class Test {
public static void main(String[] args) {
WebDriver driver = new FirefoxDriver();
FluentWebDriver fwd = new FluentWebDriver(driver);

driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);
driver.get("http://www.hudku.com/search/business-list/Paint%20%26%20Hardware%20in%20Kanakapura%20Road,%20Bangalore,%20Karnataka,%20India?p=6&h1=mgK%3DFsPlSAsPTaOVwo%2F0FIMA");

driver.navigate();

TestableString test = fwd.div(className("heading")).within(Period.secs(3)).getText();

System.out.println("header: " + test.toString());

test.shouldContain("Paint");

System.out.println("all is fine!");
}
}

我的pom.xml:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>

<groupId>testPrj3</groupId>
<artifactId>testPrj3</artifactId>
<version>1.0-SNAPSHOT</version>

<dependencies>
<dependency>
<groupId>org.seleniumhq.selenium.fluent</groupId>
<artifactId>fluent-selenium</artifactId>
<version>1.14.2</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.hamcrest</groupId>
<artifactId>hamcrest-all</artifactId>
<version>1.3</version>
<scope>test</scope>
</dependency>

<!-- If you're needing Coda Hale's Metrics integration (optional) -->
<dependency>
<groupId>com.codahale.metrics</groupId>
<artifactId>metrics-core</artifactId>
<version>3.0.0</version>
</dependency>

</dependencies>


<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.1</version>
<configuration>
<source>1.7</source>
<target>1.7</target>
</configuration>
</plugin>
</plugins>
</build>
</project>

更新

FluentLenium似乎更受欢迎一点。

关于java - 如何使用 Selenium 下载网页源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19964677/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com