file - 如何让我的 Haskell 代码使用懒惰和垃圾收集器-6ren

file - 如何让我的 Haskell 代码使用懒惰和垃圾收集器

转载作者：行者123 更新时间：2023-12-04 06:46:16

25

4

我写了一个 Haskell 代码，它必须解决以下问题:我们有 n 个文件:f1、f2、f3 .... fn 并且我剪切了这些文件，使每个切片都有 100 行

  f1_1, f1_2, f1_3 .... f1_m

  f2_1, f2_2, .... f2_n
  ...

  fn_1, fn_2, .... fn_k

最后，我按以下方式使用切片构造了一个特殊的数据类型(Dags)

  f1_1, f2_1, f3_1, .... fn_1 => Dag1

  f1_2, f2_2, f3_2, ..... fn_2 => Dag2

  ....

  f1_k, f2_k, f3_k, ..... fn_k => Dagk

我编写的代码首先切割所有文件，然后耦合结果列表的第 i 个元素并使用最终结果列表构建 Dag

它看起来像这样

  -- # take a filename and cut the file in slices of 100 lines

  sliceFile :: FilePath -> [[String]]

  -- # take a list of lists and group the i-th elements into list

  coupleIthElement :: [[String]] -> [[String]]

  -- # take a list of lines and create a DAG

  makeDags :: [String] ->  Dag

  -- # final code look like this

  makeDag_ :: [FilePath] -> [Dag]

  makeDags files = map makeDags $ coupleIthElement (concat (map sliceFile files))

问题是这段代码效率不高，因为:

它需要将所有文件以列表形式存储在内存中

垃圾收集器工作效率不高，因为所有函数都需要前一个函数的结果列表

我怎样才能重写我的程序以利用垃圾收集器的工作和 Haskell 的惰性？

如果不可能或更容易，我该怎么做才能提高效率？

谢谢您的回复

编辑
coupleIthElement ["abc", "123", "xyz"]必须返回 ["a1x","b2y","c3z"]
因为这 100 行是根据行的某些元素使用特定标准任意选择的，但我放弃了这一方面以使问题更容易理解，

另一个版本

data Dag = Dag ([(Int, String)], [((Int, Int), Int)]) deriving Show

test_dag = Dag ([(1, "a"),(2, "b"),(3, "c")],[((1,2),1),((1,3),1)])

test_dag2 = Dag ([],[])

第一个列表是由编号和标签定义的每个顶点，第二个列表是边 ((1,2),3)表示顶点 1 和 2 之间的边，成本为 3

最佳答案

几点:

1) 您是否考虑过使用 fgl ?它可能比你自己的更有效率 Dag执行。如果你真的需要使用Dag ，你可以用 fgl 构建你的图表然后将它们转换为 Dag当它们完成时。

2)在构建图形时，您似乎实际上并未使用切片，而是它们控制您拥有的图形数量。如果是这样，这样的事情怎么样:

dagFromHandles :: [Handle] -> IO Dag
dagFromHandles = fmap makeDags . mapM hGetLine

allDags :: [FilePath] -> IO [Dag]
allDags listOfFiles = do
  handles <- mapM (flip openFile ReadMode) listOfFiles
  replicateM 100 (dagFromHandles handles)

这假设每个文件至少有 100 行，任何多余的行都将被忽略。更好的是，如果您有一个可以使用 Dag 的函数，那么您可以这样做

useDag :: Dag -> IO ()

runDags :: [FilePath] -> IO ()
runDags listOfFiles = do
  handles <- mapM (flip openFile ReadMode) listOfFiles
  replicateM_ 100 (dagFromHandles handles >>= useDag)

这应该更有效地利用垃圾收集。

当然，这假设我正确理解了问题，我不确定我是否理解。请注意 concat (map sliceFile)应该是空操作( sliceFile 需要在 IO 中，因为您已经定义了类型，但现在忽略它)，所以我不明白您为什么要为此烦恼。

关于file - 如何让我的 Haskell 代码使用懒惰和垃圾收集器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3733097/

25

4

0

文章推荐： tcl - 无法使用期望生成(ssh)

文章推荐： php - 网站上次访问的页面

文章推荐： actionscript-3 - ActionScript – 无类型变量的默认数据类型？

js正则表达式验证大全(收集)
引用网址 http://hi.baidu.com/quiteuniverse/blog/item/9f3f043d46ad1e07bba16716.html 以下函数调用方式：&nbs
php - 收集 cookies
我什至不确定如何描述我正在尝试做的事情，因为我对 cookie 了解不多，但就这样吧。是否可以使用PHP从浏览器缓存中收集一个cookie(或cookie文件)，将其保存到数据库中，然后清除缓存并重
android - 使用协程流时房间卡住->收集
我正在使用 Room(v. 2.2.1)和协程支持(v. 1.3.2)并进行以下设置 @Entity(tableName = "simple_table") data class SimpleEnti
java - 基于时间运算符的累加/收集
我正在尝试编写一个基于时间运算符收集/累积值的规则。 rule "Zone6 Overlap" when $i1 : Instance ($e1 : event == " Vel : 20.9
收集 BST 的所有叶子并列出它们
我有一个简单的 BST，定义了节点结构: struct node { int key_value; struct node *left; struct node *right; }; ty
Java8 收集 map
我有这个对象: public class MenuPriceByDay implements Serializable { private BigDecimal avgPrice; p
android - 收集、存储和检索传感器数据
我正在开发一个应用程序，需要访问给定传感器的“最后 5 秒有值(value)的数据”。我的计划是以某种方式存储这些数据，然后当我请求数据时，它将返回最近 5 秒内获得的所有数据。鉴于以下情况，我不确定
C# 数组映射/收集
在 Ruby 中，您可以对数组使用 map/collect 方法来修改它: a = [ "a", "b", "c", "d" ] a.collect! {|x| x + "!" } a
java - 收集、存储和检索大量数字数据
我即将开始实时收集大量数字数据(对于那些感兴趣的人，各种股票和 future 的出价/要价/最后或“磁带”)。稍后将检索数据以进行分析和模拟。这一点都不难，但我想高效地做到这一点，这会带来很多问题。我
database - 收集、维护和确保庞大数据集准确性的最佳实践是什么？
我提出这个问题是为了寻求有关如何设计系统的实用建议。像 amazon.com 和 pandora 这样的网站拥有并维护着庞大的数据集来运行他们的核心业务。例如，亚马逊(以及所有其他主要电子商务网站)
通过已知索引、收集、分散重新调整的数组缓存友好复制
假设我们有一个数据数组和另一个带索引的数组。 data = [1, 2, 3, 4, 5, 7] index = [5, 1, 4, 0, 2, 3] 我们想从 index 的 data 元素创建一个
c# - GC.收集()
好的，我已经阅读了几个关于它的主题，但现在就开始吧。假设我有一个应用程序，基本上我会时不时地点击一个按钮，几分钟内会发生很多事情，然后它可能会再闲置一个小时，或者可能只是 1 分钟。难道不是在整个结束
r - 收集 R 中相同组内的重叠坐标列
我有一个数据框，例如 Seq Chrm start end length score 0 A C1 1 50 49 12 1 B
java - 收集 Object[] 数组中的所有方法参数
我正在考虑在 Object[] 数组中收集泛型方法的所有方法参数以进行记录。我知道使用方面可以更好地实现这一点，但是我不允许使用它，并且如果可能的话我正在寻找一种基于纯反射的方法为了澄清，假设一个
收集 Java 6 套接字垃圾
快速提问: 如果 Socket 对象(及其本地缓存的 InputStream 和 OutputStream 对象)超出范围并被垃圾收集，连接是否在 JVM 中保持打开状态？ (即，不会在监听服务器上抛
facebook - 收集 Facebook 直播公开数据
是否有用于收集 facebook 公共(public)数据作为实时提要的 API。我阅读了关于用于收集数据的公共(public)提要 API，但我现在不能申请，而且它不是免费的，还有 Open str
optimization - 收集 Lucene/优化中搜索的所有命中
摘要 :我使用自定义收集器收集给定搜索的所有命中的文档 ID(它使用 ID 填充 BitSet)。根据我的需要，搜索和获取文档 ID 的速度非常快，但是当涉及到从磁盘实际获取文档时，事情变得非常缓慢。
gradle - 收集 Gradle 项目的依赖约束
我正在寻找一种方法来从自定义 Gradle 插件收集给定项目的所有依赖约束(通过常规 platform 和/或 enforcedPlatform 和/或“手动”强制执行)。在 Maven 世界中，您
powershell - 收集 samaccount powershell
我有一个 CSV 格式的用户列表，但我需要按广告中的名称从每个用户收集 SamAccount 属性。 CSV 模型脚本 Get-ADObject -Filter 'ObjectClass -eq "
angularjs - ionic 收集 - 带日期分隔符的重复
我得到了一个非常大的列表，其中包含大约 200 个带有文本和图像的项目。 ng-repeat 是一种缓慢渲染的方式。它尝试过这个 solution 。效果很好。但不适合重复收集。我的网络服务返回此:

首页

博学

6Ren·AI

商城

file - 如何让我的 Haskell 代码使用懒惰和垃圾收集器