scala - Scala 中使用惰性求值或融合的迭代器？-6ren

scala - Scala 中使用惰性求值或融合的迭代器？

转载作者：行者123 更新时间：2023-12-03 22:31:51

28

4

我听说迭代者很懒，但是他们到底有多懒呢？或者，是否可以将迭代器与后处理功能融合，从而不必构建中间数据结构？

例如，我可以在我的迭代器中构建一个 100 万个项目吗Stream[Option[String]] 来自 java.io.BufferedReader ，然后随后过滤掉 None s，以组合的方式，不需要将整个 Stream 保存在内存中？并且同时保证我不炸堆？或类似的东西 - 它不必使用 Stream .

我目前正在使用 Scalaz 6，但如果其他迭代实现能够以更好的方式做到这一点，我很想知道。

请提供完整的解决方案，包括关闭BufferedReader并调用 unsafePerformIO ，如果适用的话。

最佳答案

这是一个使用 Scalaz 7 库的快速迭代示例，演示了您感兴趣的属性:常量内存和堆栈使用。

问题

首先假设我们有一个大文本文件，每行都有一串十进制数字，我们想要找到所有至少包含 20 个零的行。我们可以像这样生成一些样本数据:

val w = new java.io.PrintWriter("numbers.txt")
val r = new scala.util.Random(0)

(1 to 1000000).foreach(_ =>
  w.println((1 to 100).map(_ => r.nextInt(10)).mkString)
)

w.close()

现在我们有了一个名为 numbers.txt 的文件。 .让我们用 BufferedReader 打开它:

val reader = new java.io.BufferedReader(new java.io.FileReader("numbers.txt"))

它不是太大(约 97 兆字节)，但足以让我们很容易地看到我们的内存使用是否在我们处理它时实际上保持不变。

设置我们的枚举器

首先是一些进口:

import scalaz._, Scalaz._, effect.IO, iteratee.{ Iteratee => I }

还有一个枚举器(请注意，为了方便起见，我将 IoExceptionOr s 更改为 Option s):

val enum = I.enumReader(reader).map(_.toOption)

Scalaz 7 当前不提供枚举文件行的好方法，因此我们一次将文件分 block 处理一个字符。这当然会非常缓慢，但我不会在这里担心，因为这个演示的目标是展示我们可以在恒定内存中处理这个大文件并且不会破坏堆栈。该答案的最后一部分提供了一种性能更好的方法，但在这里我们将仅在换行符处进行拆分:

val split = I.splitOn[Option[Char], List, IO](_.cata(_ != '\n', false))

如果事实是 splitOn需要一个谓词来指定不拆分的位置让您感到困惑，您并不孤单。 split是我们的第一个枚举示例。我们将继续将我们的枚举器包装在其中:

val lines = split.run(enum).map(_.sequence.map(_.mkString))

现在我们有了 Option[String] 的枚举数s 在 IO单子(monad)。

使用枚举对象过滤文件

接下来是我们的谓词——请记住，我们说过我们想要至少有 20 个零的行:

val pred = (_: String).count(_ == '0') >= 20

我们可以把它变成一个过滤枚举器并将我们的枚举器包装在其中:

val filtered = I.filter[Option[String], IO](_.cata(pred, true)).run(lines)

我们将设置一个简单的操作，仅打印通过此过滤器的所有内容:

val printAction = (I.putStrTo[Option[String]](System.out) &= filtered).run

当然，我们还没有真正读过任何东西。为此，我们使用 unsafePerformIO :

printAction.unsafePerformIO()

现在我们可以观看 Some("0946943140969200621607610...") s 慢慢滚动，而我们的内存使用量保持不变。它很慢，错误处理和输出有点笨拙，但我认为对于大约九行代码来说还不错。

从迭代器获取输出

那是 foreach -ish 用法。我们还可以创建一个更像折叠的迭代器——例如收集通过过滤器的元素并将它们返回到一个列表中。只需重复以上所有内容，直到 printAction定义，然后改写:

val gatherAction = (I.consume[Option[String], IO, List] &= filtered).run

启动该操作:

val xs: Option[List[String]] = gatherAction.unsafePerformIO().sequence

现在去喝杯咖啡(可能需要离得很远)。当你回来时，你要么有一个 None (如果是 IOException 沿途某处)或 Some包含 1,943 个字符串的列表。

自动关闭文件的完整(更快)示例

为了回答您关于关闭阅读器的问题，这里有一个完整的工作示例，大致相当于上面的第二个程序，但有一个负责打开和关闭阅读器的枚举器。它也快得多，因为它读取的是行，而不是字符。首先是导入和几个辅助方法:

import java.io.{ BufferedReader, File, FileReader }
import scalaz._, Scalaz._, effect._, iteratee.{ Iteratee => I, _ }

def tryIO[A, B](action: IO[B]) = I.iterateeT[A, IO, Either[Throwable, B]](
  action.catchLeft.map(
    r => I.sdone(r, r.fold(_ => I.eofInput, _ => I.emptyInput))
  )
)

def enumBuffered(r: => BufferedReader) =
  new EnumeratorT[Either[Throwable, String], IO] {
    lazy val reader = r
    def apply[A] = (s: StepT[Either[Throwable, String], IO, A]) => s.mapCont(
      k =>
        tryIO(IO(reader.readLine())).flatMap {
          case Right(null) => s.pointI
          case Right(line) => k(I.elInput(Right(line))) >>== apply[A]
          case e => k(I.elInput(e))
        }
    )
  }

现在是枚举器:

def enumFile(f: File): EnumeratorT[Either[Throwable, String], IO] =
  new EnumeratorT[Either[Throwable, String], IO] {
    def apply[A] = (s: StepT[Either[Throwable, String], IO, A]) => s.mapCont(
      k =>
        tryIO(IO(new BufferedReader(new FileReader(f)))).flatMap {
          case Right(reader) => I.iterateeT(
            enumBuffered(reader).apply(s).value.ensuring(IO(reader.close()))
          )
          case Left(e) => k(I.elInput(Left(e)))
        }
      )
  }

我们准备好了:

val action = (
  I.consume[Either[Throwable, String], IO, List] %=
  I.filter(_.fold(_ => true, _.count(_ == '0') >= 20)) &=
  enumFile(new File("numbers.txt"))
).run

现在阅读器将在处理完成后关闭。

关于scala - Scala 中使用惰性求值或融合的迭代器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13379219/

28

4

0

文章推荐： purescript - 如何映射具有异构元素类型的记录

文章推荐： jQuery 使用 stop() 和 hide()/show()？

文章推荐： linker - 如何使用 LLVM >= 3.1 将对象链接到库？ (没有 GNU ld)

c++ - 融合::vector + 融合::push_back = 融合::vector ？
我输入了一个包含两个元素的 vector 。然后我将另一个元素 push_back 到它，并期望什么结果类型也是一个 vector 。但事实并非如此。例子: typedef boost::fusio
svn - 颠覆、融合
首先让我先说，我以前在这里问过类似的问题，但从来没有得到解决我缺乏知识/问题的好答案。首先，让我从一个分支策略提案开始。这就是我们的工作，我很高兴听到其他评论，以及为什么这很糟糕。但要明白它通常对我
javascript - 字符串的第一个字符与 % 融合
所以我将一个带有 javascript 的字符串发送到 php 页面: if(cp.value!=''){ s+=cp.name +" LIKE '%"+ cp.value +"%'";
R - which 和 which.max 融合
我有一个简单的问题，我该如何使用 which和 which.max同时。我想选择最大值epnum为行 id == B13639J2 . 我需要检索 row number因为我需要对变量进行一些手动更
groovy - 文件上传与 Groovy 融合？
我想将带有 Groovy 脚本的文件上传到 Confluence。 As this Pythonscript example!我开始将代码翻译成 groovy， // Groovy def serve
c++ - 融合 vector 投影
我有一个融合 vector ，其元素具有多个不同类型的成员数据，我想创建一个新的融合 vector ，它将仅投影特定的数据成员。我已经对此进行了一段时间的研究，但没有任何进展。 #include #
python - 如何创建一个新页面以与 Python 融合
我正在尝试使用 Python 的 xmlrpclib 创建一个新的页面以汇合。我已经知道如何更新现有页面的内容，但如何创建一个全新的页面？我使用了以下脚本来更新内容: import xmlrpcli
vmware-fusion - Pow 和 VMware 融合
我正在使用 Pow 在 Mac OS X 上为 Rack 应用程序提供服务。http://myapp.dev正确显示应用程序。在同一台机器上，我使用 VMware Fusion 运行 Windows
cassandra - Apache Cassandra 如何与 Infinispan 融合？
我检查了 Cassandra 和 Infinispan 的主要特性。它们似乎具有并提供非常相似的特性和功能: NoSQL 数据存储坚持去中心化支持复制可扩展性容错 MapReduce 支持
search - Drupal 7搜索API，Elasticsearch连接器，聚合/融合
我在Drupal 7网站中使用Search API和Elasticsearch Connector。我已经在AWS中托管了elasticsearch。搜索完美无误。但是我想像在Drupal.org搜索
python - 融合 API 和 CMake 构建
我最近重新打开了几年前参与的一个项目。我写了一个小的 python 脚本来构建项目。我想将其移植到 CMake。我遇到的问题是脚本使用了 pkg-config在 linux 上找到 fuse 头文件
node.js - Yelp 融合 : Cannot get Tokens
我正在尝试访问 Yelp fusion API。我正在关注documentation并来到这段代码: const request = require('request'); // As you can
Ubuntu 融合 : No GSettings schemas are installed on the system
这是一个 vanilla Ubuntu 16.04 LTS，准确地说是基于 Xubuntu core。所以我需要自己安装包。除了 meld 之外，一切都很顺利，开始时，我会得到: (meld:4188
Java 流惰性 vs 融合 vs 短路
我正在尝试对惰性求值在 Java 流 API 中的应用形成一个简洁而连贯的理解。这是我目前的理解: 元素仅在需要时才被消耗，即流是惰性的，中间操作也是惰性的，例如过滤器，仅在需要时进行过滤。中间操
apache-kafka - 如何将没有模式的数据发送到 kafka - 融合 jdbc - 接收器使用？
我使用 conluent jdbc-sink 将数据从 kafka 加载到 oracle。但是我用数据编写了关于值(value)的模式。我不想用数据编写模式，如何在 kafka 主题上编写模式，然
matlab - 2D 融合 Lasso 与 Matlab CVX
我在这里编写了一个 2D 融合套索代码。 [m n] = size(circle); cvx_begin variable theta(m, n); minimize( norm(ci
C++ D3D9 Alpha 与 Creators Update 融合
目前我正在开发一个使用 dx9 创建叠加层的应用程序。现在我遇到了一个问题，自从我将 Windows 10 升级到最新版本(Creators Update)后，它无法使用 alpha channel
c# - Task.Delay 与 Task.Yield 融合？
我正在尝试编写类似 fiber 的代码，这样我就可以进入任务并从中退出。我试过的代码: class TaskActivity { CancellationTokenSource _m=new
javascript - 将 JavaScript NPM 项目与 Spring Boot 融合
我使用 NPM 在 React.js 中创建了一个前端。作为 IDE，我在这里使用 IntelliJ IDEA。该项目将使用我单独创建的 Spring Boot 编写的后端，也在 IntelliJ I
cassandra - 融合 3.3 升级后 Kafka-cassandra 连接器失败
Cassandra 连接器在融合升级到 3.3.0 后失败。 Cassandra驱动的版本是3.3。堆栈如下。 [2017-09-14 08:56:28,123] ERROR java.lang.re

首页

博学

6Ren·AI

商城

scala - Scala 中使用惰性求值或融合的迭代器？