Scalaz 7 Iteratee 处理大型 zip 文件(OutOfMemoryError)-6ren

Scalaz 7 Iteratee 处理大型 zip 文件(OutOfMemoryError)

转载作者：行者123 更新时间：2023-12-04 19:09:46

25

4

我正在尝试使用 scalaz iteratee 包来处理恒定空间中的大型 zip 文件。我有一个长时间运行的过程，我需要对 zip 文件中的每个文件执行。这些进程可以(并且应该)并行运行。

我创建了一个 EnumeratorT每个充气ZipEntry成File目的。签名看起来像:

def enumZipFile(f:File):EnumeratorT[IoExceptionOr[IO[File]], IO]

我想附上一个 IterateeT这将对每个文件执行长时间运行的过程。我基本上最终会得到类似的东西:

type IOE[A] = IoExceptionOr[A]

def action(f:File):IO[List[Promise[IOE[File]]]] = (
  consume[Promise[IOE[File]], IO, List] %=
  map[IOE[File], Promise[IOE[File]], IO](longRunningProcess) %=
  map[IOE[IO[File]], IOE[File], IO](_.unsafePerformIO) &=
  enumZipFile(f)
).run

def longRunningProcess:(iof:IOE[File]):Promise[IOE[File]] =
  Promise { Thread.sleep(5000); iof }

当我尝试运行它时:

action(new File("/really/big/file.zip")).unsafePerformIO.sequence.get

我得到一个 java.lang.OutOfMemoryError: Java heap space信息。这对我来说很有意义，因为它试图建立一个庞大的列表来记录所有这些 IO和 Promise对象。

几个问题:

有没有人对如何避免这种情况有任何想法？感觉我是在错误地处理问题，因为我真的只关心 longRunningProcess因为它的副作用。

是Enumerator方法在这里是错误的方法？

我几乎没有想法，所以任何事情都会有所帮助。

谢谢!

更新 #1

这是堆栈跟踪:

[error] java.lang.OutOfMemoryError: Java heap space
[error]         at scalaz.Free.flatMap(Free.scala:46)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:62)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:61)
[error]         at scalaz.effect.IOFunctions$$anon$5.apply(IO.scala:222)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:62)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:61)
[error]         at scalaz.effect.IOFunctions$$anon$5.apply(IO.scala:222)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:62)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:61)
[error]         at scalaz.effect.IOFunctions$$anon$5.apply(IO.scala:222)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:62)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:61)
[error]         at scalaz.effect.IOFunctions$$anon$5.apply(IO.scala:222)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:62)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:61)
[error]         at scalaz.effect.IOFunctions$$anon$5.apply(IO.scala:222)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:62)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:61)
[error]         at scalaz.effect.IOFunctions$$anon$5.apply(IO.scala:222)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:62)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:61)
[error]         at scalaz.effect.IOFunctions$$anon$5.apply(IO.scala:222)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:62)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:61)
[error]         at scalaz.effect.IOFunctions$$anon$5.apply(IO.scala:222)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:62)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:61)
[error]         at scalaz.effect.IOFunctions$$anon$5.apply(IO.scala:222)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:62)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:61)
[error]         at scalaz.effect.IOFunctions$$anon$5.apply(IO.scala:222)
[error]         at scalaz.effect.IO$$anonfun$flatMap$1.apply(IO.scala:62)

我目前正在接受 nadavwr 的建议，以确保一切都像我想的那样。我会报告任何更新。

更新 #2

使用以下两个答案的想法，我找到了一个不错的解决方案。正如 huynhjl 所建议的(我使用 nadavwr 分析堆转储的建议进行了验证)， consume导致每次膨胀 ZipEntry保存在内存中，这就是进程内存不足的原因。我改了 consume至 foldM并更新了长时间运行的进程以仅返回 Promise[IOE[Unit]]而不是对文件的引用。这样我最后就有了所有 IoExceptions 的集合。这是工作解决方案:

def action(f:File):IO[List[Promise[IOE[Unit]]]] = (
  foldM[Promise[IOE[Unit]], IO, List[Promise[IOE[Unit]]]](List.empty)((acc,x) => IO(x :: acc)) %=
  map[IOE[File], Promise[IOE[Unit]], IO](longRunningProcess) %=
  map[IOE[IO[File]], IOE[File], IO](_.unsafePerformIO) &=
  enumZipFile(f)
).run

def longRunningProcess:(iof:IOE[File]):Promise[IOE[Unit]] =
  Promise { Thread.sleep(5000); iof.map(println) }

该解决方案在异步上传每个条目的同时膨胀了它们。最后，我有一个巨大的完成列表 Promise包含任何错误的对象。我仍然不完全相信这是 Iteratee 的正确用法，但我现在确实有几个可重用的、可组合的部分，我可以在我们系统的其他部分中使用它们(这对我们来说是一种非常常见的模式)。

感谢你的帮助!

最佳答案

不要使用 consume .查看我最近的另一个回答:How to use IO with Scalaz7 Iteratees without overflowing the stack?
foldM可能是更好的选择。

还尝试将文件映射到其他内容(如成功返回代码)，以查看是否允许 JVM 垃圾收集膨胀的 zip 条目。

关于Scalaz 7 Iteratee 处理大型 zip 文件(OutOfMemoryError)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16228154/

25

4

0

文章推荐： asynchronous - 同步响应 LibGDX 中的 `Gdx.net.sendHttpRequest`

文章推荐： Scala:具有多个来源和异构类型的交叉(笛卡尔)积

文章推荐： AngularJS:如何使用多个实例定位特定指令

文章推荐： asp.net-mvc - 如何在mvc中使用图表控件

java.lang.OutOfMemoryError : OutOfMemoryError thrown while trying to throw OutOfMemoryError; no stack trace available 错误
我正在尝试将用户提供的经纬度值与数据库中的经纬度值进行比较。如果它们在彼此半径 15 公里内，则应更改 TextView 。但我面临以下错误，我的数据库包含值 source lat = 19.218
android - 如何修复尝试通过改造抛出 OutOfMemoryError 时抛出的 OutOfMemoryError
我在我的应用程序中使用改造来下载一些媒体文件，如视频、mp3、jpg、pdf 等。当我想下载一个 55MB 的 mp4 格式的大文件时，这是一个问题。当我想下载这个文件时，我收到这样的错误: OutO
java - (Android) 尝试抛出 OutOfMemoryError 时抛出 OutOfMemoryError
所以我正在创建一个 Android 应用程序，这段代码引发了 "Caused by: java.lang.OutOfMemoryError: OutOfMemoryError thrown while
android - 我在 Android 中得到 "OutOfMemoryError thrown while trying to throw OutOfMemoryError; no stack available"
直到昨天，我的应用程序运行良好，但我所做的是，由于某些原因，我不得不在 Android Studio 中打开具有不同工作空间的同一个应用程序。从那时起，当我尝试运行该应用程序时，我遇到了以下异常，所以
java - 如何解决 java.lang.OutOfMemoryError : Java heap space in the case when increasing the heap size will mean delayed OutOfMemoryError
我正在尝试构建一个应用程序，其中客户端将其屏幕发送到服务器，客户端仅在上次发送屏幕和最新捕获的屏幕之间存在差异时才发送其屏幕(以便该程序在网络)。服务器使用 JFrame 和 JLabel 来显示图像
python - Cupy OutOfMemoryError 尝试在内存映射模式下 cupy.load 较大尺寸的 .npy 文件时出现 Cupy OutOfMemoryError 错误，但 np.load 工作正常
我正在尝试使用内存映射模式在 cupy 中加载一些较大的 .npy 文件，但我不断遇到 OutOfMemoryError 。我认为，由于它是在内存映射模式下打开的，因此此操作不应该占用太多内存，因为
GradleWorkerMain OutOfMemoryError
我正在尝试对基于 ant 的(Netbeans RCP)项目进行分级并找到奇怪的分级行为。我用探查器做了一些观察，得到了下一个结果。环境配置 Gradle 1.9 Build time: 20
检索大量数据时的Android OutOfMemoryError
我有一个应用程序可以进行网络调用并检索 XML 数据。如果没有太多数据，下面的代码可以正常工作。 public class WebClient { private static final S
刷新数据时Android OutOfMemoryError
在我的应用程序中，我每 3 分钟刷新一次数据。如果应用程序可以工作几个小时，我会遇到这样的错误: java.lang.OutOfMemoryError at org.apache.http.util.
Android OutOfMemoryError :?
我在我的一个应用程序中偶尔收到 OutOfMemoryError: (Heap Size=49187KB, Allocated=41957KB)。我该怎么做才能诊断？ 01-09 10:32:02
java - 如何解决 OutOfMemoryError？
对于学校项目，我必须编写不同类型的算法。问题是，我得到了一个工作算法。但是我必须多次运行它，一段时间后它给了我以下错误: Exception in thread "main" java.lang.Ou
clojure - 惰性序列中的 OutOfMemoryError
这个问题在这里已经有了答案: 8年前关闭。 Possible Duplicate: Recursive function causing a stack overflow 完成示例惰性序列 here
java - OutOfMemoryError 即使有足够的可用内存
我收到 java.lang.OutOfMemoryError 错误，即使我还有足够的空闲 RAM。我进行的内存转储在 200MB 到 1GB 之间，而我的服务器有 24GB 的 RAM。我设置了 -X
java - 为什么没有 OutOfMemoryError
我不明白为什么这段代码没有OutOfMemoryError public static void main(String[] args) { Object[] ref = new Object
java - OutOfMemoryError java堆空间
我正在使用这个语句 //some code int a[][]=new int[5000000][5000000]; //some code 并使用命令运行它 java -mx512m Test 它给
java - 分配大于堆的数组时出现意外的 OutOfMemoryError
今天我在玩OOM错误，我发现了一些我自己无法解释的东西。我尝试分配一个比堆大的数组，期望 “请求的阵列大小超出 VM 限制”错误，但我得到一个“ Java 堆空间 ”错误。根据JDK 11 doc
xamarin - 加载图像时出现 OutOfMemoryError
我有一个显示图像的简单页面。来源是 URL var img = new Image (); var source = new UriImageSource { Uri =
java - 是否保证会抛出Java OutOfMemoryError
我有一个 Java Spring Boot 应用程序。它是一个非常大的应用程序，具有许多服务，并且可以执行大量任务。我尝试实现的新任务之一是从 Oracle DB 读取一些数据并通过 REST 将其发
Java在读取文件但同时使用流时避免java.lang.OutOfMemoryError
我正在尝试使用流读取一个非常大的文件，因此我需要并行流而不是每行迭代...我正在尝试如下: String cont = new String(Files.readAllBytes(Paths.get(
Java OutOfMemoryError 奇怪的行为
假设我们的最大内存为 256M，为什么这段代码可以工作: public static void main(String... args) { for (int i = 0; i < 2; i++)

首页

博学

6Ren·AI

商城

Scalaz 7 Iteratee 处理大型 zip 文件(OutOfMemoryError)