- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 HTMLUnit 生成我们的 ajax 页面的可抓取的 HTML 快照(如 https://developers.google.com/webmasters/ajax-crawling/ 所建议)。这个想法是创建允许企业通过定期安排的服务或按照他们自己的意愿创建快照的功能。
我编写了一个快速的 POC 主类来测试理论,它按预期工作(当我们查看源代码时,我们可以看到 Google 爬虫所需的所有数据,而我们以前看不到)。我现在将它集成到我们在 Tomcat 7 上运行的应用程序中,我在从 Google 下载 jquery.js 时遇到问题,日志消息如下
2013-03-15 18:10:38,071 ERROR [author->taskExecutor-1] com.gargoylesoftware.htmlunit.html.HtmlPage : Error loading JavaScript from [https://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.js].
javax.net.ssl.SSLException: hostname in certificate didn't match: <ajax.googleapis.com/173.194.67.95> != <*.googleapis.com> OR <*.googleapis.com> OR <googleapis.com>
at org.apache.http.conn.ssl.AbstractVerifier.verify(AbstractVerifier.java:228)
at org.apache.http.conn.ssl.BrowserCompatHostnameVerifier.verify(BrowserCompatHostnameVerifier.java:54)
at org.apache.http.conn.ssl.AbstractVerifier.verify(AbstractVerifier.java:149)
at org.apache.http.conn.ssl.AbstractVerifier.verify(AbstractVerifier.java:130)
at org.apache.http.conn.ssl.SSLSocketFactory.connectSocket(SSLSocketFactory.java:397)
at org.apache.http.conn.ssl.SSLSocketFactory.connectSocket(SSLSocketFactory.java:495)
at org.apache.http.conn.scheme.SchemeSocketFactoryAdaptor.connectSocket(SchemeSocketFactoryAdaptor.java:62)
at org.apache.http.impl.conn.DefaultClientConnectionOperator.openConnection(DefaultClientConnectionOperator.java:148)
at org.apache.http.impl.conn.AbstractPoolEntry.open(AbstractPoolEntry.java:150)
...
因此,ajax 未被执行,快照也不包含我们希望的 View 源中的数据。有谁知道为什么这会发生在我的代码的 Tomcat 版本中而不是在我的独立主类中?两个版本都在我的本地机器上运行,一个只是在 Tomcat (v7) 中,一个作为 Java 应用程序。两个版本都有相同的 Maven 包含(见底部)。
注意:我已经尝试在实例化 WebClient client = new WebClient(BrowserVersion.FIREFOX_17);
时指定 BrowserVersion,因为我读过这会产生更好的结果(抱歉,我不记得链接了) .同样,这在 POC 中运行良好,但是当我在 Tomcat 中运行它时,我看到日志“Instatiating Web Client”,但无论我等待多长时间,它永远不会进入“Client Instatiated”或引发任何异常。我不知道这是否与无法下载 jqeury.js 有任何关系,因为它在没有指定 BrowserVersion 的情况下仍然可以在 POC 中运行。
这是我的 POC Java 主要方法
OutputStreamWriter writer = null;
try {
final WebClient webClient = new WebClient();
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.getOptions().setPrintContentOnFailingStatusCode(false);
final HtmlPage page = (HtmlPage)webClient.getPage("http://myurl.com");
webClient.waitForBackgroundJavaScript(1500);
File file = new File("C:\\test.html");
FileUtils.touch(file);
writer = new OutputStreamWriter(new FileOutputStream(file), "UTF-8");
writer.write(page.asXml());
writer.flush();
} catch (MalformedURLException mue) {
System.out.println("MalformedURL exception");
} catch (IOException ioe) {
System.out.println("IOException occurred " + ioe.getMessage());
} finally {
IOUtils.closeQuietly(writer);
}
这是我的整合版
/* Entry point for the generation */
public void generate() {
log.info("Beginning snapshot generation...");
try {
// Get the URLS
log.info("Retrieving list of page urls");
List<String> pageUrls = getUrlList();
log.info("Found {} urls to generate", pageUrls.size());
// For every url we have generate a snapshot
for (String pageUrl: pageUrls) {
takeSnapshot(pageUrl);
}
log.info("Finished generating snapshots!");
} catch (Exception e) {
log.error("Exception caught while generating snapshot", e);
}
}
/**
* Take the HTML snapshot of the url and output to the snapshot directory
*/
private void takeSnapshot(String pagePath) {
try {
String fullOutputFilePath = config.getHtmlSnapshotDirectory() + File.separator
+ pagePath + File.separator + HTML_SNAPSHOT_FILE_NAME;
String pageUrl = "http://myurl.com" + pagePath;
log.debug("Instantiating Web Client...");
final WebClient webClient = new WebClient();
log.debug("Client instantiated");
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.getOptions().setPrintContentOnFailingStatusCode(false);
final HtmlPage page = (HtmlPage)webClient.getPage(pageUrl);
webClient.waitForBackgroundJavaScript(1500);
snapshotFile = new File(fullOutputFilePath);
FileUtils.touch(snapshotFile);
writer = new OutputStreamWriter(new FileOutputStream(snapshotFile), "UTF-8");
writer.write(page.asXml());
writer.flush();
} catch (MalformedURLException mue) {
System.out.println("MalformedURL exception");
} catch (IOException ioe) {
System.out.println("IOException occurred " + ioe.getMessage());
} finally {
IOUtils.closeQuietly(writer);
}
}
Maven 依赖项
<dependency>
<groupId>net.sourceforge.htmlunit</groupId>
<artifactId>htmlunit</artifactId>
<version>2.12</version>
</dependency>
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.2.3</version>
</dependency>
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpcore</artifactId>
<version>4.3-alpha1</version>
</dependency>
谢谢大家!!!
最佳答案
因此添加 webClient.getOptions().setUseInsecureSSL(true);
是解决此问题的关键。但是,我不得不使用已弃用的版本 webClient.setUseInsecureSSL(true);
。
我不知道为什么新版本在 Tomcat 中运行时不起作用,但它解决了这个问题。如果有人可以深入了解为什么那会很棒。我仍然不明白为什么在运行 Tomcat 时设置 BrowserVersion 会导致应用程序停止。我已经向 HtmlUnit 邮件列表询问了这些问题的答案。
关于java - 通过 Tomcat 7 运行 HtmlUnit,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15450656/
我希望在某些环境中使用用户名和密码保护某个角色,但在其他环境中甚至不需要提示。如果我在 tomcat web.xml 中有一个 auth-constraint,我可以创建一个具有“匿名”访问权限的角色
我正在使用 Tomcat jmxproxy 和状态来监视 Web 应用程序,但是 jmxproxy 页面中有很多无用的信息,并且其中没有任何信息,例如事件连接数。有谁知道如何过滤 jmxproxy 页
是否可以通过执行 JSP 来重启 Tomcat6? 这是因为我想通过使用网络服务器远程部署应用程序的更改。 部署脚本是用 bash 编写的,它从 svn 中 check out 最新版本,然后将其打包
我有一个包含 2 个子项目(后端和 ui)的 gradle 项目。 Ui由gradle tomcatRunWar完美启动.后端有我们在生产地点的配置描述符/conf/Catalina/localhos
发现 XAMPP 控件认为 tomcat 正在运行但无法停止它的问题。 在catalina下的tomcat logs目录下可以找到如下错误 “严重:无法联系 localhost:8005。Tomcat
PuppetLabs 在 PuppetForge 上有一个模块,用于部署 Tomcat 及其配置。 https://forge.puppet.com/puppetlabs/tomcat Tomcat
我有一个部署到 Tomcat 实例中的 Web 应用程序。我希望能够将 tomcat 配置为在 Tomcat 本身启动时不自动启动该应用程序。但是,我确实希望启动 Tomcat 管理器,以便我可以根据
操作系统:windows XP。 我已经安装了 Tomcat 7.0.25,文件夹“manager”位于 webapps 文件夹中。 我已阅读此处的文档:http://tomcat.apache.or
我们在 server.xml 文件中启用了以下访问日志模式 pattern="%h %H %l %u %t "%r" %s %b location: %{location}o"。 有人可以帮助理解模式
我最近开始使用 tomcat,我有一个关于 Tomcat 请求路由/映射的查询。 假设我在 tomcat 服务器中部署了四个应用程序 A、B、C 和 D,当有请求到来时,tomcat 如何知道要调用哪
我在我的计算机上使用 Tomcat,它可以通过端口 8080 访问。我想要的是我应该能够使用我的计算机的 IP 地址访问我的 Tomcat 服务器页面。我以前读过很多主题,但找不到一个可以帮助我的主题
我有一个 tomcat 7 服务器和一个 postgreSQL 9.0 数据库。我用它来为地理网络元数据编辑器设置开发环境。一切都是根据 geonetwork 网站教程设置的。我在将服务器与数据库连接
我的服务器有 物理 ip 和 虚拟 ip 由网络管理员设置。在我安装的服务器内部 Apache tomcat 7.0.29并创建一个网络应用程序。当我运行 wget http://:8080/xxx或
我有多个应用程序在不同的端口上运行(tomcat 实例) 都有相同的CATALINA_HOME 目前我必须在所有实例中部署和安装psi 探针,并在不同的窗口中分别监控每个端口。 我如何在一个单一的探测
based on this question 我尝试将 Tomcat 控制台输出重定向到一个文本文件,它对我的 Web 应用程序工作正常,但问题是,每次 Tomcat 启动时它都会被覆盖。我需要创
我需要阐明我的问题。问题是:有什么方法可以影响 Tomcat 为特定部署的应用程序分配多少堆内存?更多详细信息 - 我如何为已部署的应用程序设置特定的 Java 选项(考虑我想为每个应用程序设置特殊的
应用服务器内部的类加载机制是开发人员常见的困惑来源;这就是为什么我想问一个关于 tomcat 7 服务器中这个机制的问题:我有一个网络应用程序 sample.war,它依赖于 jgroups 库, 放
尝试将嵌入式 Tomcat 5 迁移到嵌入式 Tomcat 7。在启动过程中获取 NPE。 我扩展了 Embedded 类并按照正确的顺序执行所有建议的初始化。 NPE 发生在这里: Caused b
我可以使用随附的 start.sh 文件启动 tomcat,但是是否有任何参数可以用来执行以下操作: 在指定的根目录启动 Tomcat 服务 强制 Tomcat 在浏览器中拉出指定的主页 谢谢 最佳答
我在两台 diff 机器 tomcat 服务器上做一个简单的集群配置。每次我启动 tomcat 时,我都会收到一个错误,就像集群组中没有事件成员一样。我正在附加集群配置
我是一名优秀的程序员,十分优秀!