- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
Finger Tree (Data.Sequence) 之间的主要区别是什么?和一根绳子(Data.Rope)( Edward Kmett's version 或 Pierre-Etienne Meunier's version ?
在 Haskell 库中,Data.Sequence 有更多的功能。我认为绳索更有效地处理“块”。
作为一个程序员考虑处理效率,比如说一个 700 万个字符的序列,我需要在其中执行 (a) 在任何地方插入,(b) 剪切和粘贴段 (splice),(c) 搜索和替换子字符串,这是更高效?
对 ehird 的澄清:
s/(ome)?reg[3]x/blah$1/g
, 重复变异数据。所以我需要高效的正则表达式模式匹配(也许形式 regex-tdfa ?)以及拼接 (data[a:b] = newData),其中不一定 (length(newData) == b-a+1)
Char
s 或 Byte
s 或 Word8
s 甚至类似假设的东西 Word4
s(半字节)。newtype
的相关问题或 data
这样我的代码可以引用抽象字母表,但编译后的程序仍然可以高效。 (我应该单独发布这个问题。)ByteString
然后将其打印到控制台的峰值为 60MB 实际内存使用量(根据 Windows 进程管理器),但将该内容加载到 Seq Char
然后打印使用400MB! (我应该单独发布这个问题,包括代码和分析细节。)cabal install
时,我都会遇到严重的麻烦(安装了不兼容版本的软件包,--user
与 --global
混淆),所以我想坚持使用 EclipseFP 可以找到的平台软件包。我认为 Text 将进入 Platform 的下一个版本,所以会很好。 Given all this information, I would recommend either Rope, or building your own structure with the fingertree package it's based on (rather than Seq, so that you can implement things like length properly with the Measured type-class — see Monoids and Finger Trees), with the leaf data chunked into an unboxed Vector. The latter is, of course, more work, but lets you optimise specially for your use-case. Either way, definitely wrap it up in an abstract interface.
最佳答案
对于这个答案的其余部分,我假设您实际上是在尝试存储原始字节,而不是字符。如果你想存储字符,那么你应该考虑使用 text (相当于 ByteString
对于 Unicode 文本)或基于它编写您自己的基于指状树的结构。您也可以使用 ByteString
与 Data.ByteString.UTF8来自 utf8-string 的模块包裹;我认为这最终会更有效率,但它的功能不如 Text
全面。对于 Unicode 文本。
嗯,你链接的rope包只存储了ByteString
的等价物s,而 Seq
是通用的,可以处理任何类型的数据;前者可能更有效地存储字节串。
我怀疑它是相同的基本树结构,因为绳子实现了“字节串的指树”,而 Seq
是一棵 2-3 指的树;它取决于(因此大概使用)fingertree包,本质上与 Data.Sequence 相同,但更通用。很可能绳子将数据打包成短ByteString
s,这是不可能的 Seq
(没有中断操作,如 length
等)。
总而言之,如果您存储字节字符串数据,rope 似乎是一种更好的结构,并且它似乎具有“注释”字符串段的奇特功能;然而,它最后一次更新是在 7 月,新的 trifecta同一作者的解析器组合器库(8 月首次发布)包含其 own set of rope modules ,因此将新代码基于它可能是不明智的。当然,对 trifecta 所做的更改可能与一般用途无关,将它们拆分为新版本的绳索可能不会太困难;也许他们没有的唯一原因是因为 trifecta 已经有大量的依赖:)
但是,如果您在处理过程中的任何时候都需要通用容器类型(例如,将字节解析为一些更丰富的表示形式的序列),或者想要坚持使用 Haskell 平台中的内容,那么您需要使用 Seq
.
你确定ByteString
或 Text
(因为你提到了角色)不适合你在做什么?它们存储偏移量和长度字段,因此获取子字符串不会导致任何复制。如果您的插入操作不够频繁,那么它可以解决。安 IntMap
基于某种类型的结构也可能值得考虑。
针对您更新的问题:
ByteString
s:注意懒惰ByteString
默认情况下使用 64 KiB 块,您可以使用 fromChunks
使用任意大的块。手动。但你是对的,手指树可能更适合;还有更多的工作要做,已经用懒惰的方式为您处理了 ByteString
s。 newtype
)代表这个字母表序列的类型。这样,您可以尝试各种实现,同时希望对必须完成的工作进行本地化,这样您就可以根据实际性能数据而不是猜测进行选择:) 当然,编写新实现仍然需要前期成本。至于你的附加问题,newtype
s 在编译时被删除,所以 newtype
具有与其包装的类型相同的运行时表示。简而言之:不用担心将东西包裹在 newtype
中s。 Seq Char
完全懒惰和装箱,不会“分块”Char
一起喜欢 Rope
将;它可能比 String
的内存效率更低.类似 Seq ByteString
可能会表现得更好,但除非你的块是恒定大小的,否则你将失去获得有意义长度等的能力,而无需遍历整个事物。 ByteString
,您可能需要考虑
unboxed Vector
;这样,您就可以使用您的抽象字母类型而不是将东西改写成
ByteString
的
Word8
基于界面。
Rope
,或使用
fingertree 构建您自己的结构打包它基于(而不是
Seq
,以便您可以使用
length
类型类正确实现诸如
Measured
之类的东西——参见
Monoids and Finger Trees ),叶数据被分块成一个未装箱的
Vector
.当然,后者需要更多的工作,但可以让您专门针对您的用例进行优化。无论哪种方式,一定要把它包装在一个抽象接口(interface)中。
关于performance - 手指树(Data.Sequence)与绳索(Data.Rope)(Haskell,或一般情况下),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8897515/
在 Haskell 中,类型声明使用双冒号,即 (::),如 not::Bool -> Bool。 但是在许多语法与 Haskell 类似的语言中,例如榆树、 Agda 、他们使用单个冒号(:)来声明
insertST :: StateDecoder -> SomeState -> Update SomeState SomeThing insertST stDecoder st = ... Stat
如果这个问题有点含糊,请提前道歉。这是一些周末白日梦的结果。 借助 Haskell 出色的类型系统,将数学(尤其是代数)结构表达为类型类是非常令人愉快的。我的意思是,看看 numeric-prelud
我有需要每 5 分钟执行一次的小程序。 目前,我有执行该任务的 shell 脚本,但我想通过 CLI 中的键为用户提供无需其他脚本即可运行它的能力。 实现这一目标的最佳方法是什么? 最佳答案 我想你会
RWH 面世已经有一段时间了(将近 3 年)。在在线跟踪这本书的渐进式写作之后,我渴望获得我的副本(我认为这是写书的最佳方式之一。)在所有相当学术性的论文中,作为一个 haskell 学生,读起来多么
一个经典的编程练习是用 Lisp/Scheme 编写一个 Lisp/Scheme 解释器。可以利用完整语言的力量来为该语言的子集生成解释器。 Haskell 有类似的练习吗?我想使用 Haskell
以下摘自' Learn You a Haskell ' 表示 f 在函数中用作“值的类型”。 这是什么意思?即“值的类型”是什么意思? Int 是“值的类型”,对吗?但是 Maybe 不是“值的类型”
现在我正在尝试创建一个基本函数,用于删除句子中的所有空格或逗号。 stringToIntList :: [Char] -> [Char] stringToIntList inpt = [ a | a
我是 Haskell 的新手,对模式匹配有疑问。这是代码的高度简化版本: data Value = MyBool Bool | MyInt Integer codeDuplicate1 :: Valu
如何解释这个表达式? :t (+) (+3) (*100) 自 和 具有相同的优先级并且是左结合的。我认为这与 ((+) (+3)) (*100) 相同.但是,我不知道它的作用。在 Learn
这怎么行 > (* 30) 4 120 但这不是 > * 30 40 error: parse error on input ‘*’ 最佳答案 (* 30) 是一个 section,它仍然将 * 视为
我想创建一个函数,删除满足第二个参数中给定谓词的第一个元素。像这样: removeFirst "abab" ( 'b') = "abab" removeFirst [1,2,3,4] even =
Context : def fib(n): if n aand returns a memoized version of the same function. The trick is t
我明白惰性求值是什么,它是如何工作的以及它有什么优势,但是你能解释一下 Haskell 中什么是严格求值吗?我似乎找不到太多关于它的信息,因为惰性评估是最著名的。 他们各自的优势是什么。什么时候真正使
digits :: Int -> [Int] digits n = reverse (x) where x | n digits 1234 = [3,1,2,4]
我在 F# 中有以下代码(来自一本书) open System.Collections.Generic type Table = abstract Item : 'T -> 'U with ge
我对 Haskell 比较陌生,过去几周一直在尝试学习它,但一直停留在过滤器和谓词上,我希望能得到帮助以帮助理解。 我遇到了一个问题,我有一个元组列表。每个元组包含一个 (songName, song
我是 haskell 的初学者,我试图为埃拉托色尼筛法定义一个简单的函数,但它说错误: • Couldn't match expected type ‘Bool -> Bool’
我是 Haskell 语言的新手,我在使用 read 函数时遇到了一些问题。准确地说,我的理解是: read "8.2" + 3.8 应该返回 12.0,因为我们希望返回与第二个成员相同的类型。我真正
当我尝试使用真实项目来驱动它来学习 Haskell 时,我遇到了以下定义。我不明白每个参数前面的感叹号是什么意思,我的书上好像也没有提到。 data MidiMessage = MidiMessage
我是一名优秀的程序员,十分优秀!