Java 程序在为 k-gram 索引语料库时突然变慢-6ren

Java 程序在为 k-gram 索引语料库时突然变慢

转载作者：行者123 更新时间：2023-12-02 11:20:27

24

4

有一个问题令我困惑。我正在为文本文件的语料库(17000 个文件)建立索引，在执行此操作时，我还将每个单词的所有 k-gram(单词的 k 长部分)存储在 HashMap 稍后使用:

public void insert( String token ) {
    //For example, car should result in "^c", "ca", "ar" and "r$" for a 2-gram index

        // Check if token has already been seen. if it has, all the
        // k-grams for it have already been added.
        if (term2id.get(token) != null) {
            return;
        }

    id2term.put(++lastTermID, token);
    term2id.put(token, lastTermID);

        // is word long enough? for example, "a" can be bigrammed and trigrammed but not four-grammed.
        // K must be <= token.length + 2. "ab". K must be <= 4
        List<KGramPostingsEntry> postings = null;
        if(K > token.length() + 2) {
            return;
        }else if(K == token.length() + 2) {
            // insert the one K-gram "^<String token>$" into index
            String kgram = "^"+token+"$";
            postings = index.get(kgram);
            SortedSet<String> kgrams = new TreeSet<String>();
            kgrams.add(kgram);
            term2KGrams.put(token, kgrams);
            if (postings == null) {
                KGramPostingsEntry newEntry = new KGramPostingsEntry(lastTermID);
                ArrayList<KGramPostingsEntry> newList = new ArrayList<KGramPostingsEntry>();
                newList.add(newEntry);
                index.put("^"+token+"$", newList);
            }
            // No need to do anything if the posting already exists, so no else clause. There is only one possible term in this case
            // Return since we are done
            return;
        }else {
            // We get here if there is more than one k-gram in our term
            // insert all k-grams in token into index
            int start = 0;
            int end = start+K;
            //add ^ and $ to token.
            String wrappedToken = "^"+token+"$";
            int noOfKGrams = wrappedToken.length() - end + 1; 
            // get K-Grams
            String kGram;
            int startCurr, endCurr;
            SortedSet<String> kgrams = new TreeSet<String>();

            for (int i=0; i<noOfKGrams; i++) {

                startCurr = start + i;
                endCurr = end + i;

                kGram = wrappedToken.substring(startCurr, endCurr);
                kgrams.add(kGram);

                postings = index.get(kGram);
            KGramPostingsEntry newEntry = new KGramPostingsEntry(lastTermID);
                // if this k-gram has been seen before
                if (postings != null) {
                    // Add this token to the existing postingsList.
                    // We can be sure that the list doesn't contain the token
                    // already, else we would previously have terminated the 
                    // execution of this function.
                    int lastTermInPostings = postings.get(postings.size()-1).tokenID;
                    if (lastTermID == lastTermInPostings) {
                        continue;
                    }
                    postings.add(newEntry);
                    index.put(kGram, postings);
                }
                // if this k-gram has not been seen before 
                else {
                    ArrayList<KGramPostingsEntry> newList = new ArrayList<KGramPostingsEntry>();
                    newList.add(newEntry);
                    index.put(kGram, newList);
                }
            }

            Clock c = Clock.systemDefaultZone();
            long timestart = c.millis();

            System.out.println(token);
            term2KGrams.put(token, kgrams);

            long timestop = c.millis();
            System.out.printf("time taken to put: %d\n", timestop-timestart);
            System.out.print("put ");
            System.out.println(kgrams);
            System.out.println();

        }

}

插入HashMap发生在行term2KGrams.put(token, kgrams);上(代码片段中有2个)。建立索引时，一切正常，直到突然出现 15,000 个索引文件时，情况变坏。一切都大大减慢，并且程序根本无法在合理的时间内完成。

为了尝试理解这个问题，我在函数末尾添加了一些打印内容。这是他们生成的输出:

http://soccer.org
time taken to put: 0
put [.or, //s, /so, ://, ^ht, cce, cer, er., htt, occ, org, p:/, r.o, rg$, soc, tp:, ttp]

aysos
time taken to put: 0
put [^ay, ays, os$, sos, yso]

http://www.davisayso.org/contacts.htm
time taken to put: 0
put [.da, .ht, .or, //w, /co, /ww, ://, ^ht, act, avi, ays, con, cts, dav, g/c, htm, htt, isa, nta, o.o, ont, org, p:/, rg/, s.h, say, so., tac, tm$, tp:, ts., ttp, vis, w.d, ww., www, yso]

playsoccer
time taken to put: 0
put [^pl, ays, cce, cer, er$, lay, occ, pla, soc, yso]

这对我来说看起来不错，推杆似乎并没有花费很长时间，并且 k-gram(在本例中为 trigram)是正确的。

但是人们可以在我的计算机打印此信息的速度中看到奇怪的行为。一开始，一切都以超高速打印。但到了 15 000 时，这个速度就停止了，取而代之的是，我的计算机开始一次打印几行，这当然意味着索引语料库的其他 2000 个文件将需要很长时间。

我观察到的另一件有趣的事情是，在按照描述的一段时间不规律且缓慢地打印后，进行键盘中断 (ctrl+c) 时。它给了我这样的消息:

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
    at java.base/java.lang.StringLatin1.newString(StringLatin1.java:549)sahandzarrinkoub@Sahands-MBP:~/Documents/Programming/Information Retrieval/lab3 2$ sh compile_all.sh
Note: ir/PersistentHashedIndex.java uses or overrides a deprecated API.
Note: Recompile with -Xlint:deprecation for details.

这是否意味着我失去了内存？这是问题所在吗？如果是这样，那就太令人惊讶了，因为我之前已经在内存中存储了很多东西，例如包含每个单词的文档ID的HashMap 在语料库中，一个 HashMap 包含每个 k-gram 出现的每个单词，等等。

请告诉我您的想法以及我可以采取哪些措施来解决此问题。

最佳答案

要理解这一点，您必须首先了解 java 不会动态分配内存(或者至少不会无限期地分配内存)。默认情况下，JVM 配置为以最小堆大小和最大堆大小启动。当某些分配超出最大堆大小时，您会得到 OutOfMemoryError

您可以分别使用虚拟机参数 -Xms 和 -Xmx 更改执行的最小和最大堆大小。至少 2 GB、但最多 4 GB 的执行示例是

java -Xms2g -Xmx4g ...

您可以在 man page for java 上找到更多选项.

但是，在更改堆内存之前，请仔细查看您的系统资源，尤其是您的系统是否启动 swapping 。如果您的系统进行交换，较大的堆大小可能会让程序运行更长时间，但性能同样较差。那么唯一可能的就是优化你的程序以使用更少的内存或升级你的机器的 RAM。

关于Java 程序在为 k-gram 索引语料库时突然变慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49958954/

24

4

0

文章推荐： string - pgf/tikz : String Symbols as Input Coordinates

文章推荐： java - 表名是什么？

文章推荐： Java Stack.peek() 到对象

在身份验证可以继续之前 ssh 变慢
我已经在谷歌上搜索这个问题一段时间了，但我还没有找到有效的解决方案。问题是 SSH 登录到我的服务器突然变得很慢。我可以看到身份验证需要大约 10 秒才能继续，这是我的 ssh 详细日志: Open
iOS AVPlayer 变慢
我正在使用 AVPlayer 在我的项目中播放在线视频。视频播放良好。现在我想减少/增加视频的 fps。以下是我正在使用的代码: self.asset = [AVAsset assetWithURL:
在树莓派中运行两个程序时 Python 变慢
在 Raspberry Pi 上运行两个使用 python gpio 引脚的程序时，一个变慢。一种是磁传感器，另一种是温湿度传感器。后者是放慢速度的。它不是每 2 秒打印一次温度，而是每 5 到 10
遍历集合时 Golang 变慢
我从 Redis 向我的应用程序提供一个 json，然后我对其进行解码和循环。这是我从 Redis 提供的 json 的样子: [ { "titel": "test 1",
debugging - 发送大节时 Ejabberd 变慢
Ejabberd 版本:19.9.0 在发送 OMEMO 消息时(使用 websockets)，例如
eclipse - 如何确定是什么导致 Eclipse 变慢？
我们有相当大的代码库(150 多个项目、400000 多行 Java 代码、一些 Groovy 和 Gradle 代码、一些 Perl 代码、一些 XML、大量 JSP 等)。我设法在 Spring
optimization - 使用阴影时 SVG 变慢
我在一个网站上工作，您可以在其中创建 svg 艺术品，这意味着您可以动态添加元素、缩放、颜色并移动它们。问题是，当你开始在他们身上施加阴影时，一切都会开始变慢。对于这个的现场演示，this是我正在开
debugging - 如何查看哪些插件导致 Vim 变慢？
有没有办法分析 Vim 插件？当我打开一个大的 .py 时，我的 MacVim 变得越来越慢。我知道我可以取消选择所有插件并逐一重新选择以检查哪个插件是罪魁祸首，但是有没有更快的方法？我的 dot
JavaFX ...是什么让我的 Controller 变慢？
我正在构建一个JavaFX应用程序。我知道它使用反射，并且反射可能不如我在代码中构建 UI 时那么快。所以，如何设计我的 Controller 以使由反射引起的开销尽可能小？带/不带 @FXML
ios - 滚动几次后，cellForRowAtIndexPath 变慢
我对 UITableViewCell 进行了子类化显示从 1 到 70 的数字。在每个单元格中，我都在检查中奖号码并检查他们的背景。问题是，经过几次滚动后，tableview 变得非常缓慢，甚至无法
r - 过滤任何命令时 group_by 变慢
如果我想group_by 和filter 那些在数据集中有任何NA 或factor 值的，我想在 dplyr 中使用 any 函数，但发现它对 NAs 或 factor 运行缓慢(但不是为了寻找任何数
java - 多次插入后 hibernate 变慢
我有一个问题。在我的解决方案中，我需要将数千个数据插入数据库。我正在使用批处理准备语句在一个请求中插入多行。在我调用插入几次之后， hibernate 变得更慢了。我猜它会在我提交后检查数据库是否有
ios - 加载图像使我的桌面 View 变慢
我从 json url 获取数据，但是当我想加载图像时，速度非常慢! class NewsTableViewController: UITableViewController { var id
java - 更新托管对象字段的 Realm 变慢
我有一个相当简单的托管 Realm 对象 RealmAlertItem由一些字符串和 float 组成。我有一个函数 showAlertNotification()随后被调用(从网络外部触发)并且它依
mysql 索引使 group by 变慢
请参阅下面的表格结构。 CREATE TABLE `oarc` ( `ID` bigint(20) NOT NULL AUTO_INCREMENT, `zID` int(11) NOT N
android - Intellij 变慢，通常达到最大堆大小然后提示退出
IntelliJ 慢得像爬行。键之间没有 1-2 个延迟几乎无法打字。我已经更新了堆大小。我在我的 Macbook Pro 上运行大约 2GB RAM。自从它一直在放缓。我已经增加了堆大小，但无济于事
INSERT 后 MySQL 变慢
我的 Web 应用程序遇到了性能问题。发现瓶颈是db。应用程序在具有 4 个 CPU 和 2GB RAM 的 LAMP 服务器 (VPS) 上运行。将新记录插入数据库(包含大约 100.000 条记
ios - 一段时间后 dispatch_queue_t 变慢
我有关于自定义 DispatchQueue 的问题。我创建了一个队列，并将其用作captureOutput:方法的队列。这是一个代码片段: //At the file header private
ios - 如何让 iOS 变慢
我是一名移动 QA。现在我们有一个关于网络响应和 UI 渲染之间的竞争条件的问题。我们猜测如果 UI 渲染比网络响应慢，那么它就会崩溃。我们已经尝试通过使用 Charles 的本地 map 功能来加
切换到全屏时 Javascript/jQuery 变慢
我在 firefox 中遇到了一些奇怪的行为，我正在构建一个单页作品集，作为一名平面设计师，编码一直很困难。我想平滑地控制导航，然后向所有元素添加缩放(最初设计为 1920x1080 全屏)。讲师扔了

首页

博学

6Ren·AI

商城

Java 程序在为 k-gram 索引语料库时突然变慢