java - 为什么这个 env 对象的大小不断增长？-6ren

java - 为什么这个 env 对象的大小不断增长？

转载作者：行者123 更新时间：2023-12-01 11:17:16

我已经在网络爬虫上工作了一段时间了，这个想法很简单，我有一个包含网站列表的SQL表，我有很多线程从表中获取第一个网站并删除它，然后爬行它(以类似堆的方式)。

代码有点太长，所以我要尝试删除其中的某些部分:

 while(true){
    if(!stopped){  
        System.gc();

        Statement stmt;
        String scanned = "scanned";
        if (!scan)scanned = "crawled";
        Connection connection = null;
            try {
            connection = Utils.getConnection();
            } catch (Exception e1) {

            connection.close();
            e1.printStackTrace();
            }
            String name;
            stmt = connection.createStatement();
            ResultSet rs = null;
            boolean next;
            do {
            rs = stmt.executeQuery("select url from websites where "+scanned+" = -1");
            next = rs.next();
            } while (next && Utils.inBlackList(rs.getString(1)));


            if(next){
            name = rs.getString(1);
            stmt.executeUpdate("UPDATE websites SET "+scanned+" = 1 where url = '"+Utils.stripDomainName(name)+"'");
            String backup_name = name;
            name = Utils.checkUrl(name);
            System.out.println(scanned + " of the website :  " + name +" just started by the Thread : " + num);

            // And here is the important part, I think

            CrawlConfig config = new CrawlConfig();
            String ts = Utils.getTime();
            SecureRandom random = new SecureRandom();
            String SessionId = new BigInteger(130, random).toString(32);
            String crawlStorageFolder = "tmp/temp_storageadmin"+SessionId;
            config.setCrawlStorageFolder(crawlStorageFolder);

            config.setPolitenessDelay(Main.POLITENESS_DELAY);
            config.setMaxDepthOfCrawling(Main.MAX_DEPTH_OF_CRAWLING);
            config.setMaxPagesToFetch(Main.MAX_PAGES_TO_FETCH);
            config.setResumableCrawling(Main.RESUMABLE_CRAWLING);
            int numberOfCrawlers = Main.NUMBER_OF_CRAWLERS;
            PageFetcher pageFetcher = new PageFetcher(config);
            RobotstxtConfig robotstxtConfig = new RobotstxtConfig();
            RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);

            try {
                  controller = new CrawlerController(config, pageFetcher, robotstxtServer);
                  controller.addSeed(name);
                  controller.setSeeed(name);
                  controller.setTimestamp(ts);
                  controller.setSessiiid("admin"+num+scan);

                  //Main.crawls.addCrawl("admin"+num+scan, new Crawl(name,"admin"+num+scan,ts));
                 stmt.executeUpdate("DELETE FROM tempCrawl WHERE SessionID = '"+"admin"+num+scan+"'");
                  if (!scan){
                     // Main.crawls.getCrawl("admin"+num+scan).setCrawl(true);

                     stmt.executeUpdate("INSERT INTO tempCrawl (SessionID, url, ts, done, crawledpages, misspelled, english, proper, scan, crawl )"
                        + " VALUES ( '"+"admin"+num+scan+"', '"+name+"', '"+ts+"', false, 0, 0, true, false, "+false+" , "+true+"  )");
                  }else{
                      //Main.crawls.getCrawl("admin"+num+scan).setScan(true);

                     stmt.executeUpdate("INSERT INTO tempCrawl (SessionID, url, ts, done, crawledpages, misspelled, english, proper, scan, crawl )"
                        + " VALUES ( '"+"admin"+num+scan+"', '"+name+"', '"+ts+"', false, 0, 0, true, false, "+true+" , "+false+"  )");
                  }
                  connection.close();
                  controller.start_auto(Crawler.class, numberOfCrawlers, false, scan,num);

            } catch(Exception e){
                      rs.close();
                      connection.close();
                  e.printStackTrace();
              }
            }else{
               rs.close();
               connection.close();
            }  






        //CrawlerController.start_auto(scan, num);

        if (stopping){
        stopped = true;
        stopping = false;
        }
    }}
    } catch (Exception e) {
        e.printStackTrace();
    }

正如你所看到的，每次我都在创建一个crawlerController，并抓取一个网站等等。

这里的问题是 jvm 内存堆的大小不断增加。使用 yourKit Java 分析器分析应用程序后，我在以下代码行中找到了内存泄漏:

yourKit profiling screenshot

现在这正是内存泄漏开始的地方，这个环境变量似乎占用了太多空间，并且在每次操作后不断增加，而操作是独立的。

    Environment env = new Environment(envHome, envConfig);

我真的不知道这个变量的作用，以及如何修复它，还有一件事，我确实更改了crawlController源代码，我认为这可能是相关的。

最佳答案

假设您使用crawler4j作为爬行框架。

每次创建抓取 Controller 时，都会实例化一个新的frontier，该边界在抓取工具线程之间共享，以管理要抓取的 URL 队列。此外，还会创建一个所谓的“docIdServer”，它负责管理传入 URL(例如网站)是否已在此抓取中进行处理。

此frontier和docIdServer基于内存数据库，其中environment负责缓存、锁定、日志记录和事务。因此，这个变量会随着时间的推移而增长。

如果将可恢复爬行设置为true，数据库将以文件模式运行，并且增长速度会变慢。

关于java - 为什么这个 env 对象的大小不断增长？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31665011/

文章推荐： java - 无法在java中读取公钥进行验证

文章推荐： rcpp - 了解 `Makevars` 以链接到 R 包中的外部 C 库

文章推荐： django-migrations - 如何将 django-mptt 重建添加到迁移中？

文章推荐： java - Android:按钮淡出问题

iphone - 如何准备应用程序以提交到应用程序商店？我*不断*收到代码签名错误？
如果这不是一个错误，那就是另一个错误。如果不是那样的话，那就是别的东西了。我觉得我的项目已经改变了很多，现在只是试图解决代码签名问题，结果一切都搞砸了。我严格按照说明进行操作，但出现错误，例如当前的“
c++ - 我的 makefile 不断 self 编译；我究竟做错了什么？
我不确定是否有一些我不知道的内置变量或规则，或者 make 是否有问题，或者我只是疯了。对于我的一个项目，我有一个如下的 makefile: CC=g++ CFLAGS=-O3 `libpng-co
jQuery/CSS3 - 不断 3d 翻转 5 div？
我有大约 10 个 div，它们必须不断翻转，每个 div 延迟 3 秒这个 codrops 链接的最后一个效果是我正在寻找的，但无需单击 div http://tympanus.net/Devel
php - jQuery 不断 ping 以获取 Ajax 响应
我如何使用 jQuery 持续运行 PHP 脚本并每秒获取响应，以及将鼠标上的少量数据发送到同一脚本？我真的必须添加一些随机扩展才能让这么简单的计时器工作吗？最佳答案 To iterate is
java - REQUIRES_NEW 内的 REQUIRES_NEW 内的 REQUIRES_NEW ... 不断
JBoss 4.x EJB 3.0 我见过如下代码(大大简化): @Stateless @TransactionAttribute(TransactionAttributeType.NOT_SUPPO
git - 不能忽略 .idea/workspace.xml - 不断 pop
使用 PHPStorm，我试图忽略每次尝试进行 git 提交时 pop 的 workspace.xml。我的 .gitignore 看起来像: /.idea/ .idea/workspace.xml

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 为什么这个 env 对象的大小不断增长？