java - 使用 HtmlUnit 每页下载多个文件-6ren

java - 使用 HtmlUnit 每页下载多个文件

转载作者：行者123 更新时间：2023-11-30 09:19:00

24

4

我正在使用 HtmlUnit 浏览网站。它有一个表格，其中包含可供下载的文档列表。我想点击所有链接并收集所有文件(不用担心，信息是公开的，不禁止抓取)。

site是用 JSF 编写的，所以文档的链接实际上是 <a href="#"与 onclick提交表单(但在此之前将隐藏字段设置为适当的值)。

我的代码是(在 scala 中，但这并不重要):

val link = row.getFirstByXPath[HtmlElement](descriptor.documentLinkPath.get)
if (link.getAttribute("href").endsWith("#")) link.setAttribute("href", "javascript:void(0)")
val documentPage: Page = link.click()
val bytes = IOUtils.toByteArray(documentPage.getWebResponse().getContentAsStream())

但是有一个问题。第一个文档已正确下载。但我无法获得第二个及以后的页面 - 返回的是 html 页面，而不是 PDF 文档。 (注释掉 # -> javascript:void(0) 没有任何效果，我把它放在那里是因为它曾经在某些情况下爆炸)

Javascript 已启用，并且让它在第一个文档中运行意味着一切正常。但是，它不适用于下一个文档。任何想法如何解决？

最佳答案

如果没有页面重新加载，我也无法做到这一点。我认为诀窍是从 onclick() 属性上执行 JavaScript。

这个:

return oamSubmitForm('broi_form','broi_form:dataTable1:4:_idJsp110',null,[['id_','3545']]);');

也许这对你有帮助。

public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException
{
    final WebClient webClient = new WebClient();

    HtmlPage page = webClient.getPage("http://dv.parliament.bg/DVWeb/broeveList.faces");

    for (HtmlAnchor link : (List<HtmlAnchor>) page.getByXPath("//table[@id='broi_form:dataTable1']//a/img/.."))
    {
        String commandString = link.getOnClickAttribute().replaceAll("return ", "");
        System.out.println(commandString);

        ScriptResult executeJavaScript = page.executeJavaScript(commandString);

        Page newPage = executeJavaScript.getNewPage();
        save(newPage.getWebResponse().getContentAsStream());

        page = webClient.getPage("http://dv.parliament.bg/DVWeb/broeveList.faces");
    }

}

但这不是正确的做法...

关于java - 使用 HtmlUnit 每页下载多个文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18173150/

24

4

0

文章推荐： java - org.apache.commons.net.ssh 文档

文章推荐： c# - 从 C++、C# 和 Java 的角度来看，什么是 Windows 编程？

文章推荐： java - 如何解析多个没有名字的json对象

htmlunit - 如何关闭 htmlunit 的详细报告？
htmlunit 报告从 css 到页面上解析错误的所有内容。这个怎么静音？？最佳答案把这些放在声明 webClient 之后 webClient.setCssError
htmlunit - 是否有 HTMLUnit 登录和几次点击的工作示例
可能显示 Javascript 测试支持 package htmlunitpoc; import com.gargoylesoftware.htmlunit.WebClient; import co
htmlunit - Java HtmlUnit - 无法登录到 wordpress
我正在尝试使用 HtmlUnit 登录到我的本地 wordpress 网站，但它似乎存在 cookie 问题。那是代码的开头: WebClient webClient = new WebClient
htmlunit - 在 HtmlUnit 中切换 url
有什么办法可以在 HtmlUnit 中使用 session 更改 url？我的情况如下所示，登录 http://test.raja.com与凭据。获取页面http://home.raja.com
htmlunit - 使用 HtmlUnit 时未找到 404
我有以下代码: WebClient webClient = new WebClient(); HtmlPage page = webClient.getPage("http://www.myland.
testing - htmlunit 与带有 htmlunit 插件的 jwebunit
我研究过htmlunit、httpunit、jwebunit、selenium等ui测试工具。我对测试工具不是很熟悉。 Htmlunit 在 javascript 支持方面听起来是个不错的选择。然后
htmlunit - 给定一个 HtmlUnit HtmlPage 对象，如何获取其 Document 的 URI？
我拥有的页面对象是 click() 长链的结果调用(以防万一您想知道如何在不知道用于获取它的 URL 的情况下拥有一个页面对象)。方法HtmlPage.getDocumentURI未实现。 Html
java - htmlunit java - 如何解析 javascript 的内容结果？和 htmlunit 错误
这是我要抓取的页面:https://www.tokopedia.com/berkahcell2/promo-termurah-vr-virtual-reality-box-v-2-0-remote-b
linux - 安装 WWW::HtmlUnit 时找不到“类 com.gargoylesoftware.htmlunit.WebClient”
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
java - HtmlUnit 2.8 getFirstByXPath 与 HtmlUnit 1.14 getFirstByXPath 不同吗？
我的站点结构看起来像这样: Item 1 Desc 1
javascript - HtmlUnit net.sourceforge.htmlunit.corejs.javascript.EcmaError : TypeError: Cannot read property "GetLoginJsonInfo" from undefined
我的代码是这样的: WebClient webClient = new WebClient(BrowserVersion.CHROME); webClient.setAjaxController(ne
htmlunit - 如何在忽略JavaScript和CSS的同时获取HTMLUnit中页面的纯原始HTML？
我只希望页面的文本内容，并且希望抓取尽可能轻巧。我可以关闭HTMLUnit开箱即用的所有JavaScript和CSS以及其他外部内容的解析和其他加载功能吗？最佳答案我认为与您正在寻找的最接近的东西
JavaScript HtmlUnit
我有一个提交按钮，但无法点击.. Send SMS 我已经尝试过这个: page = (HtmlPage) form.getInputByValue("Send SMS").click()
HtmlUnit 禁止外部请求
我使用 HtmlUnit 对我的网站进行自动化测试。我的网站使用 gmaps api - 发送外部网站请求需要花费大量时间(我有数百次测试和数千次页面加载)。我需要一些方法来告诉 HtmlUnit
HtmlUnit 禁止外部请求
我使用 HtmlUnit 对我的网站进行自动化测试。我的网站使用 gmaps api - 发送外部网站请求需要花费大量时间(我有数百次测试和数千次页面加载)。我需要一些方法来告诉 HtmlUnit
java - HtmlUnit - 获取更新的页面？
我正在使用 HtmlUnit 加载一个充满 JavaScript 的网页。 WebClient 可以很好地执行 JavaScript。但是，当我单击调用 Ajax 调用的特定表单上的按钮时，即使调用
HtmlUnit session 管理
我正在尝试使用 HtmlUnit 登录 Facebook 页面并查看其 HTML 内容。我正在尝试通过 HtmlUnit 填写登录凭据，但在单击提交按钮时我没有看到正在执行的 session 。在
使用 HtmlUnit 进行登录检查
Hy...我想使用 HtmlUnit 登录到一些 3rd 方网站。但是 HtmlUnit 应该能够告诉我对输入站点的登录尝试是否成功。有什么办法可以使用 HtmlUnit 执行此任务。请帮忙 ..!!
selenium - HtmlUnit 的稳定性和速度如何
我正在从 selenium-1 升级到 selenium-2 并尝试新的 HtmlUnit 驱动程序。我已经尝试了一些基本的测试(打开一个页面，get_text，..)，它似乎极慢(我认为 chro
htmlunit - HTML 单元显示错误的字符
我正在使用 HTMLUnit。我正在访问页面，但是特殊(马耳他)字符显示错误。例如，ġuvni 显示为 ?uvni HtmlPage page = submit_button.click(); Sys

首页

博学

6Ren·AI

商城

java - 使用 HtmlUnit 每页下载多个文件