gpt4 book ai didi

java - Dos命令获取IE页面源

转载 作者:行者123 更新时间:2023-11-30 09:00:56 24 4
gpt4 key购买 nike

是否可以从命令行或使用 java 代码获取当前在 IE 或 chrome 中打开的网页的源代码?我相信必须有办法。如果是,我们如何获取它的确切信息,因为 chrome 和 IE 支持多个选项卡。

我正在尝试处理来自数百个网页的内容,其中一些网页会以 15 秒的定期间隔自动刷新。而有些则没有。

是的,我可以通过使用套接字或使用 URLConnection 类的实例来获取网页源。但是,它不提供浏览器的默认刷新功能。唯一的选择是多次点击 URL,如果可以利用默认浏览器的刷新功能,则可以避免这种情况。

此外,如果读者可以评论如何使用程序填写文本框并从浏览器提交请求,那就太好了。谢谢。

最佳答案

Java 中有几个“抓取”框架。

我个人非常喜欢JSoup,因为它轻量级且代码紧凑。

  // get the source of a website in just 1 line of code.
Document doc = Jsoup.connect("http://www.google.com").get();

// print all hyperlink paths.
Elements links = doc.select("a[href$=.html]");
for (Element lnk : links) System.out.println(lnk.attr("href"));

但是它不呈现 javascript 或类似的东西。它简单、快速但愚蠢。

我认为您可能更喜欢使用 HtmlUnit,它更像是一个隐形的网络浏览器。它使您甚至可以模拟按钮上的点击事件、执行 javascript 等。您可以让它模仿 Internet Explorer 或 Firefox。

关于java - Dos命令获取IE页面源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26590963/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com