- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
问题:
我需要将多个正则表达式应用于一个大日志文件的每一行(例如几 GB 长),收集非空匹配项并将它们全部放入一个数组中(用于序列化并通过网络发送)。
如果回答 this question, slice 并没有多大帮助持有:
If the slice does not have sufficient capacity, append will need to allocate new memory and copy the old one over. For slices with <1024 elements, it will double the capacity, for slices with >1024 elements it will increase it by factor 1.25.
由于可能有数十万个正则表达式匹配项,我无法真正预测 slice 的长度/容量。我不能让它太大“以防万一”因为这会浪费内存(或者会浪费内存吗?如果内存分配器足够聪明,不会分配太多未写入的内存,也许我可以使用巨大的 slice 容量没有太大伤害?)。
所以我正在考虑以下替代方案:
len()
会起作用吗?)在 Go 中有没有更省力的方法来实现这个目标(追加 ~ O(1) 追加复杂度)?
(这里当然是 golang 新手)
最佳答案
append()
的平均(摊销)成本已经是 O(1),因为它每次都会按百分比增长数组。随着阵列越来越大,增加它的成本会越来越高,但相应地也会越来越少。一个 10M 项目的 slice 的增长成本是 1M 项目 slice 的 10 倍,但由于我们分配的额外容量与大小成正比,它也将是 10 倍的 append(slice, item )
调用直到下一次增长。增加的成本和减少的重新分配频率相互抵消,使平均成本保持不变,即 O(1)。
同样的想法也适用于其他语言的动态大小数组:例如,Microsoft 的 std::vector
实现显然每次都会将数组增长 50%。摊销 O(1) 并不意味着您无需为分配支付任何费用,只是随着数组变大,您继续以相同的平均速率支付。
在我的笔记本电脑上,我可以在 77 毫秒内运行一百万个 slice = append(slice, someStaticString)
。 siritinga 在下面指出,它很快的一个原因是“复制”字符串以扩大数组实际上只是复制字符串 header (指针/长度对),而不是复制内容。 100,000 个字符串 header 仍然需要复制不到 2MB,与您正在处理的其他数据量相比,这不是什么大问题。
container/list
在微基准测试中对我来说慢了 3 倍;当然,链表追加也是常数时间,但我认为 append
具有较低的常数,因为它通常只能写入几个内存字而不分配列表项等。时间安排代码在 Playground 中不起作用,但您可以将其复制到本地并运行它以查看您自己:http://play.golang.org/p/uYyMScmOjX
有时,您可以预先分配空间以避免重新分配/复制(在此示例中,使用 make([]string, 0, 1000000)
将运行时间从 ~77ms 缩短到 ~10ms) ,但是,当然,通常只是你没有足够的关于预期数据大小的信息等等来获得有值(value)的 yield ,你最好把它留给内置算法。
但是您在这里问的是关于类似 grep
的应用程序的更具体的问题(感谢您提出具有上下文的详细问题)。为此,底线建议是,如果您要搜索大量日志,最好完全避免在 RAM 中缓冲整个输出。
您可以编写一些东西将结果流式传输为单个函数:logparser.Grep(in io.Reader, out io.Writer, patterns []regexp.Regexp)
;如果你不想要发送结果的代码与 grep 代码过于纠缠。
(关于 []byte
与 string
:[]byte
似乎在这里完成了工作并避免了 [] byte
<=>string
转换,当你做 I/O 时,所以我更喜欢那样。不过,我不知道你在做什么,如果你需要 string
没问题。)
如果您确实将整个匹配列表保存在 RAM 中,请注意保持对大字符串或字节 slice 的一部分的引用可以防止整个源字符串/slice 被垃圾收集。因此,如果您走那条路,那么与直觉相反,您实际上可能想要复制匹配项以避免将所有源日志数据保留在 RAM 中。
关于go - 高效附加到可变长度的字符串容器 (Golang),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20251900/
我正在尝试运行这段代码,用随机数替换字符串中的一个字符: //Get the position between 0 and the length of the string-1 to insert
我有一个包含 3 个位置的数组,假设它的所有位置都是数字 5。 [5 5 5] 我怎样才能以保持 555 的方式将它传递给 var?就像这样。 n:= 555 最佳答案 与使用任何其他语言的方式相同:
我使用 go dep 工具版本 v0.4.1,现在当我运行 dep init 时它会按预期创建 2 个文件,当我打开 gopkg.lock 我发现例如以下内容 [[projects]] name
我正在制作学习联系申请。我有一个 NewContact()。 // Contact - defines the fields of an entire Contact type Contact str
我一直在尝试使用该模块: https://godoc.org/github.com/hirochachacha/go-smb2#RemoteFile.ReadAt 为了在 Windows 机器上对我的
我需要在 golang 中编译 golang 中的程序。有没有不使用 exec.Command("go","build") 的原生形式? 最佳答案 不幸的是,我认为使用 exec.Command 是利
编写输出有效 go 代码的 go 应用程序可能最好使用内置的“go”包及其一些子包(“go/ast”、“go/token”、“go/printer”、等)。 要创建字符串文字表达式,您需要创建一个 a
我正在尝试使用 Golang 和 gin 为我的 api 和前端编写代理。如果请求转到除“/api”之外的任何内容,我想代理到 svelte 服务器。如果出现“/api/something”,我想在
我偶然发现了这个博客:using go as a scripting language并尝试创建一个可用于运行 golang 脚本的自定义图像,即 FROM golang:1.15 RUN go ge
我刚开始接触golang,我需要从json字符串中获取数据。 {"data" : ["2016-06-21","2016-06-22","2016-06-25"], "sid" : "ab", "di
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 3 年前。 Improve
我是 goland 的新手,试图在我的第一个项目中使用它。我注意到在 goland 中它没有显示通过容器引入的相同 golang SDK。 这是我的 Dockerfile: FROM golang:1
我正在试用 golang-neo4j-bolt-driver 包 github.com/johnnadratowski/golang-neo4j-bolt-driver 我已经导入了包并正在使用创建新
如果我安装了Go发行版软件包,则会在/usr/lib/golang/pkg中看到很多文件,在/usr/lib/golang/src中看到非常相似的文件集。这两组之间有什么关系? pkg是从src中的源
我发现 golang 上下文对于在客户端-服务器请求范围内取消服务器的处理很有用。 我可以使用 http.Request.WithContext 方法发出带有上下文的 http 请求,但是如果客户端不
我正在尝试将一个 golang 数组(还有 slice、struct 等)放置到 HTML 中,这样当从 golang gin web 框架返回 HTML 时,我可以在 HTML 元素内容中使用数组元
目前正在使用这个 ffmpeg 命令编辑视频 ffmpeg -i "video1.ts" -c:v libx264 -crf 20 -c:a aac -strict -2 "video1-fix.ts
我需要从 play.golang.org 链接读取 golang 代码并保存到 .go 文件。我想知道 play.golang.org 是否有任何公共(public) API 支持。我用谷歌搜索但没有
我第一次使用 IntelliJ 的最新 (2014-01-03) Golang 插件。 通常,我的终端工作流程是 go build && ./executable -args=1 所以我试图创建一个启
这个问题只是在构建之间随机出现,现在甚至我们的生产 repo,几个月都没有改变,在构建时也会出现这个问题。我已经坚持了一段时间。它不会发生在我们的本地机器上,只有在使用 dockerfile 时才会发
我是一名优秀的程序员,十分优秀!