gpt4 book ai didi

java - 为什么这个 env 对象的大小不断增长?

转载 作者:行者123 更新时间:2023-12-01 11:17:16 25 4
gpt4 key购买 nike

我已经在网络爬虫上工作了一段时间了,这个想法很简单,我有一个包含网站列表的SQL表,我有很多线程从表中获取第一个网站并删除它,然后爬行它(以类似堆的方式)。

代码有点太长,所以我要尝试删除其中的某些部分:

 while(true){
if(!stopped){
System.gc();

Statement stmt;
String scanned = "scanned";
if (!scan)scanned = "crawled";
Connection connection = null;
try {
connection = Utils.getConnection();
} catch (Exception e1) {

connection.close();
e1.printStackTrace();
}
String name;
stmt = connection.createStatement();
ResultSet rs = null;
boolean next;
do {
rs = stmt.executeQuery("select url from websites where "+scanned+" = -1");
next = rs.next();
} while (next && Utils.inBlackList(rs.getString(1)));


if(next){
name = rs.getString(1);
stmt.executeUpdate("UPDATE websites SET "+scanned+" = 1 where url = '"+Utils.stripDomainName(name)+"'");
String backup_name = name;
name = Utils.checkUrl(name);
System.out.println(scanned + " of the website : " + name +" just started by the Thread : " + num);

// And here is the important part, I think

CrawlConfig config = new CrawlConfig();
String ts = Utils.getTime();
SecureRandom random = new SecureRandom();
String SessionId = new BigInteger(130, random).toString(32);
String crawlStorageFolder = "tmp/temp_storageadmin"+SessionId;
config.setCrawlStorageFolder(crawlStorageFolder);

config.setPolitenessDelay(Main.POLITENESS_DELAY);
config.setMaxDepthOfCrawling(Main.MAX_DEPTH_OF_CRAWLING);
config.setMaxPagesToFetch(Main.MAX_PAGES_TO_FETCH);
config.setResumableCrawling(Main.RESUMABLE_CRAWLING);
int numberOfCrawlers = Main.NUMBER_OF_CRAWLERS;
PageFetcher pageFetcher = new PageFetcher(config);
RobotstxtConfig robotstxtConfig = new RobotstxtConfig();
RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);

try {
controller = new CrawlerController(config, pageFetcher, robotstxtServer);
controller.addSeed(name);
controller.setSeeed(name);
controller.setTimestamp(ts);
controller.setSessiiid("admin"+num+scan);

//Main.crawls.addCrawl("admin"+num+scan, new Crawl(name,"admin"+num+scan,ts));
stmt.executeUpdate("DELETE FROM tempCrawl WHERE SessionID = '"+"admin"+num+scan+"'");
if (!scan){
// Main.crawls.getCrawl("admin"+num+scan).setCrawl(true);

stmt.executeUpdate("INSERT INTO tempCrawl (SessionID, url, ts, done, crawledpages, misspelled, english, proper, scan, crawl )"
+ " VALUES ( '"+"admin"+num+scan+"', '"+name+"', '"+ts+"', false, 0, 0, true, false, "+false+" , "+true+" )");
}else{
//Main.crawls.getCrawl("admin"+num+scan).setScan(true);

stmt.executeUpdate("INSERT INTO tempCrawl (SessionID, url, ts, done, crawledpages, misspelled, english, proper, scan, crawl )"
+ " VALUES ( '"+"admin"+num+scan+"', '"+name+"', '"+ts+"', false, 0, 0, true, false, "+true+" , "+false+" )");
}
connection.close();
controller.start_auto(Crawler.class, numberOfCrawlers, false, scan,num);

} catch(Exception e){
rs.close();
connection.close();
e.printStackTrace();
}
}else{
rs.close();
connection.close();
}






//CrawlerController.start_auto(scan, num);

if (stopping){
stopped = true;
stopping = false;
}
}}
} catch (Exception e) {
e.printStackTrace();
}

正如你所看到的,每次我都在创建一个crawlerController,并抓取一个网站等等。

这里的问题是 jvm 内存堆的大小不断增加。使用 yourKit Java 分析器分析应用程序后,我在以下代码行中找到了内存泄漏:

yourKit profiling screenshot

现在这正是内存泄漏开始的地方,这个环境变量似乎占用了太多空间,并且在每次操作后不断增加,而操作是独立的。

    Environment env = new Environment(envHome, envConfig);

我真的不知道这个变量的作用,以及如何修复它,还有一件事,我确实更改了crawlController源代码,我认为这可能是相关的。

最佳答案

假设您使用crawler4j作为爬行框架。

每次创建抓取 Controller 时,都会实例化一个新的frontier,该边界在抓取工具线程之间共享,以管理要抓取的 URL 队列。此外,还会创建一个所谓的“docIdServer”,它负责管理传入 URL(例如网站)是否已在此抓取中进行处理。

frontierdocIdServer基于内存数据库,其中environment负责缓存、锁定、日志记录和事务。因此,这个变量会随着时间的推移而增长。

如果将可恢复爬行设置为true,数据库将以文件模式运行,并且增长速度会变慢。

关于java - 为什么这个 env 对象的大小不断增长?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31665011/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com