xml - 使用拉式解析器的 Scala 内存泄漏-6ren

xml - 使用拉式解析器的 Scala 内存泄漏

转载作者：可可西里更新时间：2023-11-01 15:07:40

25

4

我一直在尝试编写一个 XML 解析器来读取维基百科 XML 转储(英语，只有当前修订版，压缩后大约 6.2Gb)并且一直在使用 Scala 2.8.1 pull 解析器。它得到了一个合理的通过(超过 1000 万篇文章中的 300 万篇)但似乎逐渐泄漏内存并最终因堆外错误而爆炸。我将堆增加到 1.5Gb 并且它变得更远(几乎到最后)，但后来我得到(我忘记了确切的异常)一个错误表明垃圾收集器正在放弃(花费了整个处理资源的很大一部分无需回收太多)。

我的代码对我来说似乎是合理的(尽管它还不是惯用的函数式 scala)而且我看不到任何明显的泄漏源。我也知道拉式解析器仍在完善中——但我太清楚自己的无知，无法将其称为库问题。我是一位经验丰富的 C++ 和 Python 程序员，但我刚刚接触 Scala，因此非常感谢任何反馈。

import java.io.{FileInputStream, BufferedInputStream}
import org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream
import org.apache.hadoop.io.SequenceFile.{createWriter}
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.hadoop.io.Text
import org.apache.hadoop.io.SequenceFile.CompressionType.BLOCK

import scala.io.Source
import scala.xml.pull.{XMLEventReader, EvElemStart, EvElemEnd, EvText}



object Crunch
{
    private def parsePage( parser : XMLEventReader ) : (String, Long, Long, String) =
    {
        var title = ""
        var id = 0
        var revision = 0
        var text = ""
        var done = false
        while ( parser.hasNext && !done )
        {
            parser.next match
            {
                case EvElemStart(_, "title", _, _ ) =>
                {
                    title = getText( parser, "title" )
                }
                /*case EvElemStart(_, "revision", _, _) =>
                {
                    // Need to get the 'id' from revision
                    revision = getText( parser, "revision" ).toInt
                }*/
                case EvElemStart(_, "id", _, _ ) =>
                {
                    id = getText( parser, "id" ).toInt
                }
                case EvElemStart(_, "text", _, _ ) =>
                {
                    text = getText( parser, "text" )
                }
                case EvElemEnd(_, "page") =>
                {
                    done = true
                }
                case _ =>
            }
        }
        return (title, id, revision, text)
    }

    private def getText( parser : XMLEventReader, inTag : String ) : String =
    {
        var fullText = new StringBuffer()
        var done = false
        while ( parser.hasNext && !done )
        {
            parser.next match
            {
                case EvElemEnd(_, tagName ) =>
                {
                    assert( tagName.equalsIgnoreCase(inTag) )
                    done = true
                }
                case EvText( text ) =>
                {
                    fullText.append( text )
                }
                case _ =>
            }
        }
        return fullText.toString()
    }
    def main( args : Array[String] )
    {
        require( args.length == 2 )
        val fin = new FileInputStream( args(0) )
        val in = new BufferedInputStream(fin)
        val decompressor = new BZip2CompressorInputStream(in)

        val runtime = Runtime.getRuntime

        val conf = new Configuration()
        val fs = FileSystem.get(conf)        

        //val writer = createWriter( fs, conf, new Path(args(1)), new Text().getClass(), new Text().getClass(), BLOCK )

        var count = 0
        try
        {
            val source = Source.fromInputStream( decompressor )
            val parser = new XMLEventReader(source)

            while (parser.hasNext)
            {
                parser.next match
                {
                    case EvElemStart(_, "page", attrs, _) =>
                    {
                        val (title, id, revision, text) = parsePage( parser )

                        //writer.append( new Text(title), new Text(text) )

                        count = count + 1
                        if ( count % 100 == 0 )
                        {
                            printf("%s %d (%dMb mem, %dMb free)\n", title, count,
                                (runtime.totalMemory/1024/1024).toInt,
                                (runtime.freeMemory/1024/1024).toInt )
                        }
                    }
                    case _ =>
                }
                // Do something
            }
        }
        finally
        {
            decompressor.close()
            fin.close()
        }

        println( "Finished decompression.")
    }
}

最佳答案

在 trunk 中修复了 XML pull 解析器的 2 种类型的内存问题:

CData和 processing instruction阻止垃圾收集的元素
Elements with a lot of children ，每个 child 占用一点内存，最终堆耗尽。

第一个问题通常会导致非常快的内存不足问题，所以不太可能。

两者都应该每晚修复 2.9.0，我建议使用它。如果你运行在 2.9.0 issues 因为它是 trunk 并且可能不稳定，你也可以通过下载并在本地编译 XMLEventEventReader 和 MarkupParser 来反向移植这两个补丁，然后将输出打包为 00patch.jar，使其位于 scala libs jar 之前，并将其放在 2.8.1 安装的 $SCALA_HOME/lib 下。

关于xml - 使用拉式解析器的 Scala 内存泄漏，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5057322/

25

4

0

文章推荐： apache - 在 apache 中将 REMOTE_ADDR 设置为 X-Forwarded-For

文章推荐：检查客户端证书的 HTTPS 测试服务器

文章推荐： php - 在 PHP 中使用 HTTP 的 HEAD 命令最简单的方法是什么？

JQuery 拉
我试图让我的 jQuery 脚本从单击的链接中提取 url，然后将其插入到我的视频标签中。有什么建议吗？我试过拼接我从 .html() 中得到的内容，但引号总是搞砸了。

Docker 拉 “unexpected EOF”
我遇到了 docker 的问题。场景是这样的:我们使用Codebuild+Packer+docker创建AMI，用于deploy。在这一步中，我们从 Artifactory 中提取图像，并且除了提取
Javascript 拉/推单个/多个
我目前正在学习 RxJS。在文档中，我找到了这个数组。我尝试在谷歌上搜索“pull and push javascript”，但我什至不知道如何调用这些实体/概念。我不明白那是什么意思？我假设 S
html - 推/拉 - 基础
Title 在小屏幕上，我首先需要标题，然后是文本字段，但在中等以上的屏幕上，我需要相反的方式 - 我已经尝试过推和拉，但它们无法工作 - 有什么想法吗？最佳答案根据 Swa
c++ - ZeroMQ 推/拉
zmq 的某些部分未以可预测的方式运行。我正在使用 VS2013 和 zmq 3.2.4。为了不在我的 pubsub 框架中“丢失”消息 [旁白:我认为这是一个设计缺陷。我应该能够首先启动我的订阅者
html - Bootstrap 嵌套列利用推/拉
我正在编写一个使用嵌套 Bootstrap 列的页面。我正在使用推/拉让列在移动设备上切换位置，而且效果很好。但是，在桌面上我遇到了一些奇怪的间距问题。嵌套列偏移到父列的右侧。我设置了一个 fidd
docker 拉: operation not permitted
在拉取一些 docker 镜像(但不是全部)时出现此错误: failed to register layer: Error processing tar file(exit status 1): op
docker - 无法从本地 docker 注册表推/拉
我创建了一个 Kubernetes 集群，并为每个节点安装了 docker。当我尝试使用 docker push local_registry_addr:port/image_id 将图像拉取或推送
mercurial - 何时隐式推/拉 Mercurial 书签？
没有明确地推/拉单个书签，书签何时从 repo 复制/更新到 repo？在我对两个本地存储库的测试中，我无法推断出一致的行为。有时从 A 到 B 或 B 到 A 的推/拉会复制/更新书签，有时不会。
html - Bootstrap 列排序的实际用例(推、拉)
在 Bootstrap 3 文档中，他们给出了以下使用 push 和 pull 类更改列顺序 (http://getbootstrap.com/css/#grid-column-ordering) 的
css - 拉/推中的 Bootstrap 故障
从这个问题开始Three column Bootstrap layout with left sidebar at bottom我了解了 Bootstrap 列推拉。下面的代码片段几乎可以得到我想要
python - 如何将单个选项传递给 gitpython 的推/拉？
许多 Repo 函数的签名包括 **kwargs，其中文档说，您可以将参数传递给底层包装的 git 命令。但是，*args 没有位置。为了传递类似标志的参数，如 --all。我原以为它们会像 my_r
android - 带进度条的 adb 推/拉
如果您将大文件推送/拉到设备上，这真的很烦人，现在无法知道它有多远。是否可以运行 adb push 或 adb pull 并使用“bar”实用程序获取进度条？这里的主要问题是我认为 adb 需要两个
heroku - 如何使用 Gitkrakent 推/拉 Heroku？
当我尝试使用 Gitkrakent 向/从 Heroku 推/拉时，GitKraken 告诉我: "Please log in to continue" 请求的“用户/登录”是什么？ (我个人 Her
docker - 拉 github 项目时 Jenkins 出现无效凭证错误
我在 docker 容器中有一个 Jenkins 2.150.1。要安装这个 Jenkins，我只需使用 jenkinsci/blueocean:1.9.0图片。我创建了一个管道，然后尝试使用我的
jenkins - 用 Jenkins 做 docker 拉
我想使用 Jenkins 做下一步: 1- docker pull 2- docker run -i -t 我已经在jenkins上安装了docker插件，但是这可行吗？ docker plugi
eclipse - 如何在本地 Mercurial 存储库中保留未提交的更改，同时仍然推/拉？
如果我正在处理一些我不想提交的文件，我只需保存它们。然后我有其他文件想要推送到服务器，但是如果其他人对存储库进行了更改，并且我将它们拉下来，它会要求我 merge 或 rebase ..但是这些选项中
拉 og :image 时 Facebook 错误
无论出于何种原因，我在 FB 上共享链接时尝试使用的图像都无法加载。给出的确切错误是: 提供了og:image，无法下载。发生这种情况的原因有多种，例如您的服务器使用不受支持的内容编码。爬虫接受 de
Android 4.3 ADB 推/拉
今天我买了三星 Galaxy Note 3，它配备了 Android 4.3。由于它太新了，我找不到根植我设备的方法，所以我尝试使用 adb 连接……我失败了。所以，我用了这个 D:\android
testing - Airflow 测试模式 xcom 拉/推不工作
我尝试通过 airflow cli test 命令测试 2 个任务` 第一个任务运行，自动将最后一个控制台推送到 xcom，我按预期在 Airflow GUI 中看到了值 some value 当我通

首页

博学

6Ren·AI

商城

xml - 使用拉式解析器的 Scala 内存泄漏