gpt4 book ai didi

java - 从html源代码中过滤pdf链接

转载 作者:行者123 更新时间:2023-12-01 15:52:30 24 4
gpt4 key购买 nike

我即将编写一个类,用于查看 html 源代码并过滤其中的所有 pdf 链接。它背后的想法只是采用父链接+相对链接..基本上它的工作原理是

<a href="blabla/123.pdf">pdf</a>

但在某些情况下并非如此,例如如果相同的pdf链接写为

<a href="./blabla/123.pdf">pdf</a> 

<a href=" blabla/123.pdf">pdf</a>

(点和空间)都是工作链接,如果在浏览器中解析它们,则它们会转到同一目录中的相同 pdf,但对于我的类(class)中的组合来说完全无用。

我解决了上述两种情况的问题。问题是语法中是否还有其他特殊情况需要注意。

最佳答案

在下载文件之前,您不知道链接指向什么。

我可以有一个类似 http://www.mysite.com/pages/brochure.html 的链接,它在内部重定向到 PDF 文件。

因此,如果您无法控制链接,或者无法处理网站的特定部分,那么您就会失败。

另一方面,如果您正在处理网站的特定部分,并且知道每个 PDF 链接都有 .pdf 扩展名,则只需检查扩展名而不是整个内容路径(不知道在 Java 中如何编写 C# 的 .lastIndexOf("string") 内容)。

关于java - 从html源代码中过滤pdf链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5729626/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com