gpt4 book ai didi

Java:从HTML中提取所有资源链接

转载 作者:太空宇宙 更新时间:2023-11-04 06:40:26 26 4
gpt4 key购买 nike

我正在寻找一种从 Java 的 HTML 页面中提取所有资源链接的方法。 (URL 链接、文件链接..)

我首先想到的是提取 src 里面的所有元素, href属性,但该列表并不详尽。这里有一个代码示例:Jsoup, extract links, images, from website. Exception on runtime

作为一个棘手的例子,我希望能够检测隐藏在 JavaScript 中的链接(也可以隐藏在 HTML DOM 中的任何位置):

<IMG onmouseover="window.open('http://www.evil.com/image.jpg')">

编辑:

1) 我不是在寻找基于正则表达式的解决方案,因为它们处理 HTML 文档并不可靠

2) 我尝试使用像 JSoup 这样的 Html DOM 解析器。它们可以很好地提取标签及其属性。但是我还没有找到一种方法来检测 JavaScript 中的链接。

3)也许有一个可用的 API 可以尝试渲染页面并检测需要加载哪些资源?

你有什么想法吗?

谢谢。

最佳答案

如果您想使用 PHP 并具有一些编程知识,这里有一个库。

http://simplehtmldom.sourceforge.net/

我使用这个库从标签中提取信息,甚至从标签的属性中提取信息。这正是您需要做的事情,而无需使用复杂的代码。

关于Java:从HTML中提取所有资源链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24743132/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com