gpt4 book ai didi

java - 当我使用递归检查所有 html 链接和 web 子链接时,计算机崩溃

转载 作者:行者123 更新时间:2023-12-02 13:17:36 25 4
gpt4 key购买 nike

我的任务是迭代给定门户网站的所有链接+子链接。在大多数情况下,当网页不太复杂和太大时,我不会遇到任何问题。当我检查一个非常复杂的网站(例如tutorialspoint)的链接并且我的计算机崩溃时,问题就开始了。我在附加的代码中找不到任何性能问题,所以有经验的人可以告诉我代码中的哪些位置可能存在威胁,我的计算机在哪里崩溃?

uniqueLinks 集合是一个 HashSet,可实现使用 contains 的最佳性能。

private void recursiveLinkSearch(String webPage) {
/** ignore pdf**/
try {
logger.info(webPage);
uniqueLinks.add(webPage);
Document doc = Jsoup.connect(webPage).get();
doc.select("a").forEach(record->{
String url=record.absUrl("href");
if(!uniqueLinks.contains(url)) {
/** this would not allow me to to recursively acces to link from other domain **/
if(url.contains(getWebPortalDomain())) {
recursiveLinkSearch(url);
}
}
});
} catch (IOException e) {
e.printStackTrace();
}

}

最佳答案

我假设您字面上的意思是您的计算机崩溃了。我认为您实际上的意思是您的应用程序崩溃了,我预计这是由于 StackOverflowError 造成的。

Java 中的递归存在一个基本限制。如果线程递归得太深,它将填满其堆栈,并且您会收到 StackOverflowError 。您可以通过使用更大的线程堆栈来解决此问题(在某些情况下),但这仅适用于特定点。

在这种情况下,您应该做的是将递归问题转变为迭代问题。例如:

  1. 使用数据结构来保存等待处理的网址队列。
  2. 当您处理页面并找到指向需要处理的其他页面的链接时,请将链接添加到队列中。

执行此操作的简单方法是使用具有有限工作池的 ExecutorService。这也负责队列管理。

关于java - 当我使用递归检查所有 html 链接和 web 子链接时,计算机崩溃,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43702214/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com