performance - 手指树(Data.Sequence)与绳索(Data.Rope)(Haskell，或一般情况下)-6ren

performance - 手指树(Data.Sequence)与绳索(Data.Rope)(Haskell，或一般情况下)

转载作者：行者123 更新时间：2023-12-03 14:54:36

Finger Tree (Data.Sequence) 之间的主要区别是什么？和一根绳子(Data.Rope)( Edward Kmett's version 或 Pierre-Etienne Meunier's version ？

在 Haskell 库中，Data.Sequence 有更多的功能。我认为绳索更有效地处理“块”。

作为一个程序员考虑处理效率，比如说一个 700 万个字符的序列，我需要在其中执行 (a) 在任何地方插入，(b) 剪切和粘贴段 (splice)，(c) 搜索和替换子字符串，这是更高效？

对 ehird 的澄清:

我的大头算法正在运行数以千计的搜索替换操作 , 喜欢 s/(ome)?reg[3]x/blah$1/g , 重复变异数据。所以我需要高效的正则表达式模式匹配(也许形式 regex-tdfa ？)以及拼接 (data[a:b] = newData)，其中不一定 (length(newData) == b-a+1)

Lazy ByteStrings 可能没问题，但是拼接怎么办 ?拼接一个 ByteString 是 O(dataSize/chunkSize) 线性时间(用于搜索)，加上(也许？)维护恒定大小块的开销。 (后半部分可能有误)；相对于 FingerTree 的 O(log(dataSize))。

我的“containee”数据类型抽象地是一个有限字母表 .可以具体表示Char s 或 Byte s 或 Word8 s 甚至类似假设的东西 Word4 s(半字节)。
** 我有一个关于如何有效使用 newtype 的相关问题或 data这样我的代码可以引用抽象字母表，但编译后的程序仍然可以高效。 (我应该单独发布这个问题。)

性能问题 : 也许 Seq 远比 ByteString 差(q 显着常数因子)。在简单的测试中，将 7MB 读入严格的 ByteString然后将其打印到控制台的峰值为 60MB 实际内存使用量(根据 Windows 进程管理器)，但将该内容加载到 Seq Char然后打印使用400MB! (我应该单独发布这个问题，包括代码和分析细节。)

平台关注 : 我正在使用 EclipseFP和 Haskell 平台。我的机器上安装了Text，我想尝试一下，但是我的Eclipse环境找不到它。每当我使用 cabal install 时，我都会遇到严重的麻烦(安装了不兼容版本的软件包，--user 与 --global 混淆)，所以我想坚持使用 EclipseFP 可以找到的平台软件包。我认为 Text 将进入 Platform 的下一个版本，所以会很好。

三连胜 :我短暂地看到了 Trifecta，这让我更加困惑。 (为什么它有自己已经发布的通用数据结构的新实现？它们更好吗？有太多几乎相同的选项!)

编辑了更多细节和改进的链接。

这个问题变大了。

@ehird 的总结是主要的重点。绳索或 ByteStrings 或 Vectors 的手指树加上一个小的自定义幺半群。无论哪种方式，我都必须编写一个简单的正则表达式实现来粘贴。

Given all this information, I would recommend either Rope, or building your own structure with the fingertree package it's based on (rather than Seq, so that you can implement things like length properly with the Measured type-class — see Monoids and Finger Trees), with the leaf data chunked into an unboxed Vector. The latter is, of course, more work, but lets you optimise specially for your use-case. Either way, definitely wrap it up in an abstract interface.

我今天晚些时候会回来，并分解成新的问题。我会把低级的技术问题整理一下，然后再回到整体比较。
我将更改问题标题以更好地反射(reflect)我真正关心的问题“哪些 Haskell 模块提供或支持我需要有效的序列操作操作？”感谢 ehird 和其他响应者。

最佳答案

对于这个答案的其余部分，我假设您实际上是在尝试存储原始字节，而不是字符。如果你想存储字符，那么你应该考虑使用 text (相当于 ByteString 对于 Unicode 文本)或基于它编写您自己的基于指状树的结构。您也可以使用 ByteString与 Data.ByteString.UTF8来自 utf8-string 的模块包裹;我认为这最终会更有效率，但它的功能不如 Text 全面。对于 Unicode 文本。

嗯，你链接的rope包只存储了ByteString的等价物s，而 Seq是通用的，可以处理任何类型的数据；前者可能更有效地存储字节串。

我怀疑它是相同的基本树结构，因为绳子实现了“字节串的指树”，而 Seq是一棵 2-3 指的树；它取决于(因此大概使用)fingertree包，本质上与 Data.Sequence 相同，但更通用。很可能绳子将数据打包成短ByteString s，这是不可能的 Seq (没有中断操作，如 length 等)。

总而言之，如果您存储字节字符串数据，rope 似乎是一种更好的结构，并且它似乎具有“注释”字符串段的奇特功能；然而，它最后一次更新是在 7 月，新的 trifecta同一作者的解析器组合器库(8 月首次发布)包含其 own set of rope modules ，因此将新代码基于它可能是不明智的。当然，对 trifecta 所做的更改可能与一般用途无关，将它们拆分为新版本的绳索可能不会太困难；也许他们没有的唯一原因是因为 trifecta 已经有大量的依赖:)

但是，如果您在处理过程中的任何时候都需要通用容器类型(例如，将字节解析为一些更丰富的表示形式的序列)，或者想要坚持使用 Haskell 平台中的内容，那么您需要使用 Seq .

你确定ByteString或 Text (因为你提到了角色)不适合你在做什么？它们存储偏移量和长度字段，因此获取子字符串不会导致任何复制。如果您的插入操作不够频繁，那么它可以解决。安 IntMap基于某种类型的结构也可能值得考虑。

针对您更新的问题:

自定义字符串类型的正则表达式:请记住，要使用具有“不寻常”字符串类型的现有正则表达式实现，您必须implement the support yourself将其粘贴到现有的 regex-tdfa 代码中。我不确定最终的表现会是什么。

懒人拼接ByteString s:注意懒惰ByteString默认情况下使用 64 KiB 块，您可以使用 fromChunks 使用任意大的块。手动。但你是对的，手指树可能更适合；还有更多的工作要做，已经用懒惰的方式为您处理了 ByteString s。

有限字母表:好的;我建议你抽象出(用 newtype )代表这个字母表序列的类型。这样，您可以尝试各种实现，同时希望对必须完成的工作进行本地化，这样您就可以根据实际性能数据而不是猜测进行选择:) 当然，编写新实现仍然需要前期成本。至于你的附加问题，newtype s 在编译时被删除，所以 newtype具有与其包装的类型相同的运行时表示。简而言之:不用担心将东西包裹在 newtype 中s。

序列性能:嗯，这并不奇怪。 Seq Char完全懒惰和装箱，不会“分块”Char一起喜欢 Rope将;它可能比 String 的内存效率更低.类似 Seq ByteString可能会表现得更好，但除非你的块是恒定大小的，否则你将失去获得有意义长度等的能力，而无需遍历整个事物。

EclipseFP 包问题:我不会根据这样的简单工具问题来选择使用哪种表示；我建议提出一个新问题。

三连冠:我认为三连胜与您的问题无关；它只是由与rope 相同的作者编写的，这就是为什么它与rope 的持续发展相关。它只是一个像 Parsec 这样的解析器组合器库，它更侧重于诊断等而不是性能，所以我认为它不能取代你的正则表达式。

就 #3 而言，而不是 ByteString ，您可能需要考虑 unboxed Vector ;这样，您就可以使用您的抽象字母类型而不是将东西改写成 ByteString的 Word8基于界面。

鉴于所有这些信息，我会推荐 Rope ，或使用 fingertree 构建您自己的结构打包它基于(而不是 Seq ，以便您可以使用 length 类型类正确实现诸如 Measured 之类的东西——参见 Monoids and Finger Trees )，叶数据被分块成一个未装箱的 Vector .当然，后者需要更多的工作，但可以让您专门针对您的用例进行优化。无论哪种方式，一定要把它包装在一个抽象接口(interface)中。

顺便说一句，正则表达式在 Haskell 生态系统中并没有得到应有的支持。如果有任何选择，可能值得考虑使用其他东西。但是它过多地依赖于你的程序的具体细节来给出具体的建议。

关于performance - 手指树(Data.Sequence)与绳索(Data.Rope)(Haskell，或一般情况下)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8897515/

文章推荐： haskell - 条件中的意外分号

文章推荐： web-services - Codeigniter 网络服务

文章推荐： asp.net - Razor 与 ASPX 语法的比较

sequence - 你如何在 Ceylon 中展平一个 Sequence of Sequences？
给定一个 Sequence of Sequences 类型，如何将其转换为单个扁平化 Sequence 类型？考虑以下 Ceylon 代码: Integer[] range(Integer max)
f# - 由 Sequence 的前一个元素和另一个 Sequence 构造的 Sequence
出于学习目的，我正在尝试使用 F# 以序列形式运行模拟。从一系列随机数开始，如果状态不依赖于先前的状态，map 是生成状态序列的直接方法。我遇到问题的地方是当我尝试做类似的事情时: State(i+1
sequence - DynamoDB : Have sequencing within Items
我正在 DynamoDB 上开发论坛。有一个帖子表，其中包含线程中的所有帖子。我需要对帖子中的顺序有一个概念，即我需要知道哪个帖子先出现，哪个后出现。我的服务将在分布式环境中运行。我不确定使用时
sequence - DynamoDB : Have sequencing within Items
我正在 DynamoDB 上开发论坛。有一个帖子表，其中包含线程中的所有帖子。我需要对帖子中的顺序有一个概念，即我需要知道哪个帖子先出现，哪个后出现。我的服务将在分布式环境中运行。我不确定使用时
sequence - Z3py 是否支持 "String"和 "Sequence"
在 Z3 中，它支持 String 和 Sequence。但是 Z3py 是否也支持它们，或者我们必须使用 Python 中的字符串或列表？从最新的版本来看，新版本好像确实支持了String和Sequ
Clojure : apply keys to every sequence of sequence
我是 Clojure 世界的新手，我遇到了一个问题。我得到了一个 LazySeq，看起来像这样(实际上更长) values = (("Brand1" "0") ("Brand2" "15") ("Br
python - "Decoder"模型的 "Sequence-to-Sequence"应该输入什么？
我正在开发一个用于文本生成的序列到序列模型 ( paper )。我没有在解码器端使用“教师强制”，即 t0 时解码器的输出被馈送到 t1 时解码器的输入。现在，实际上，解码器(LSTM/GRU)的输
c++ - Rust 中的 "sequence point"/"sequenced-before"规则是什么？
Rust 中的规则是什么，类似于这里描述的规则http://en.cppreference.com/w/cpp/language/eval_order对于 C++？目前我凭经验发现， 1) 函数的参
python - 我的代码 : identifying sequence within another sequence 中的错误
我当前的代码: import re from Bio.Seq import Seq def check_promoter(binding_element,promoter_seq): promoter
python - 值错误 : setting an array element with a sequence when array is not a sequence
您好，此代码旨在存储使用 open cv 绘制的矩形的坐标，并将结果编译为单个图像。 import numpy as np import cv2 im = cv2.imread('1.jpg') im
java - : a string should not contain any sequence of characters immediately followed by the same sequence? 的正则表达式示例是什么
在我的程序中，我有一个正则表达式，它确保输入字符串至少有一个字母和一个数字字符，并且长度在 2 到 10 之间。 Pattern p = Pattern.compile("^(?=.*\\d)(?=.
python - 如何修复 'TypeError: cannot convert dictionary update sequence element #0 to a sequence'
我正在查看 Google 的免费机器学习速成类(class)，并尝试根据他们类(class)的第一部分制作一个预测模型。但是，在输入函数中，有一个字典，我不断收到此错误， in my_input_fn
c++ - boost fusion/MPL : convert type from sequence to sequence of equivalent any_range's
我想使用 Boost 的 any_range 来处理多个异构数据范围。我的数据范围类型称为 fusion vector ，例如: typedef vector TypeSequence 鉴于这样的类型
oracle - 在 SimpleJdbcInsert 对象中指定 Oracle Sequence 以从 Oracle Sequence 生成 key
我正在使用 SimpleJdbcInsert 作为， SimpleJdbcInsert simpleJdbcInsert = new SimpleJdbcInsert(dataSource).with
python - Biopython 给出 ValueError : Sequences must all be the same length even though sequences are of the same length
我正在尝试通过从我的数据创建 .phy 文件来创建系统发育树。我有一个数据框 ndf= ESV trunc 1 esv1 TACGTAGGTG... 2 esv2 TACGGAGGGT... 3 e
c# - 学习 Rx : How can I parse an observable sequence of characters into an observable sequence of strings?
这可能真的很简单，但我正处于 Rx 学习曲线的底部。我花了几个小时阅读文章、观看视频和编写代码，但我似乎对一些看起来应该非常简单的事情有心理障碍。我正在从串行端口收集数据。我已使用 Observab
python - 类型错误 : cannot convert dictionary update sequence element #0 to a sequence - Odoo v10 community
我正在将一些模块从 v8 迁移到 v10，我有这个模型: class SearchInfoPartnerSeniat(models.TransientModel): _name = "search.i
Marten - using sequences - add new sequence fails on 2nd run(马丁-使用序列-添加新序列在第二次运行时失败)
我尝试添加一个新的“自定义”序列到我的Marten DB中，以获取新用户的用户ID（在注册过程中）。。后来，我能够访问下一个序列值，如下所示：。问题出在上面的代码中：在第一次运行时：将userid_s
sequence - 关于Raku中数组生成序列的问题
我在 rosettacode 遇到了这个代码 my @pascal = [1], { [0, |$_ Z+ |$_, 0] } ... Inf; .say for @pascal[^4]; # ==>
sequence - 对来自序列的供应使用react
我不明白为什么这个程序有效: my $supply = Supply.interval: 1; react { whenever $supply { put "Got $^a" }

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

performance - 手指树(Data.Sequence)与绳索(Data.Rope)(Haskell，或一般情况下)