memory-leaks - Go:内存使用过多，内存泄漏-6ren

memory-leaks - Go:内存使用过多，内存泄漏

转载作者：IT王子更新时间：2023-10-29 00:47:35

我非常非常注意内存，因为我必须编写需要处理大量数据集的程序。

目前我的应用程序很快达到 32GB 内存，开始交换，然后被系统杀死。

我不明白这是怎么回事，因为除了 Trainer 中的 TokensStruct 和 TokensCount 之外，所有变量都是可收集的(在函数中并快速释放) > 结构。 TokensCount 只是一个单位。 TokensStruct 是 [5]uint32 和字符串的 1,000,000 行 slice ，因此这意味着 20 个字节 + 字符串，我们可以称每条记录最多 50 个字节。 50*1000000 = 需要 50MB 内存。因此，此脚本不应在函数中使用超过 50MB + 开销 + 临时可收集变量(最多可能再增加 50MB)。TokensStruct 的最大潜在大小为 5,000,000，因为这是 dictionary，但即便如此，它也只有 250MB 的内存。 dictionary 是一个 map ，显然使用了大约 600MB 的内存，因为这是应用程序启动的方式，但这不是问题，因为 dictionary 只加载一次并且永远不会写入再次。

相反，它使用 32GB 内存然后死掉。以它执行此操作的速度，我希望它能愉快地达到 1TB 的内存(如果可以的话)。内存似乎随着正在加载的文件的大小以线性方式增加，这意味着它似乎永远不会清除任何内存。进入应用程序的所有内容都分配了更多内存，并且永远不会释放内存。

我尝试实现 runtime.GC() 以防垃圾收集运行不够频繁，但这没有任何区别。

由于内存使用量以线性方式增加，这意味着 GetTokens() 或 LoadZip() 中存在内存泄漏。我不知道这是怎么回事，因为它们都是函数并且只执行一项任务然后关闭。或者可能是 Start() 中的 tokens 变量是泄漏的原因。基本上看起来每个加载和解析的文件都不会从内存中释放，因为这是内存可以线性填充并继续增加到 32GB++ 的唯一方法。

绝对的噩梦! Go 有什么问题？有什么办法可以解决这个问题吗？

package main

import (
    "bytes"
    "code.google.com/p/go.text/transform"
    "code.google.com/p/go.text/unicode/norm"
    "compress/zlib"
    "encoding/gob"
    "fmt"
    "github.com/AlasdairF/BinSearch"
    "io/ioutil"
    "os"
    "regexp"
    "runtime"
    "strings"
    "unicode"
    "unicode/utf8"
)

type TokensStruct struct {
    binsearch.Key_string
    Value [][5]uint32
}

type Trainer struct {
    Tokens      TokensStruct
    TokensCount uint
}

func checkErr(err error) {
    if err == nil {
        return
    }
    fmt.Println(`Some Error:`, err)
    panic(err)
}

// Local helper function for normalization of UTF8 strings.
func isMn(r rune) bool {
    return unicode.Is(unicode.Mn, r) // Mn: nonspacing marks
}

// This map is used by RemoveAccents function to convert non-accented characters.
var transliterations = map[rune]string{'Æ': "E", 'Ð': "D", 'Ł': "L", 'Ø': "OE", 'Þ': "Th", 'ß': "ss", 'æ': "e", 'ð': "d", 'ł': "l", 'ø': "oe", 'þ': "th", 'Œ': "OE", 'œ': "oe"}

//  removeAccentsBytes converts accented UTF8 characters into their non-accented equivalents, from a []byte.
func removeAccentsBytesDashes(b []byte) ([]byte, error) {
    mnBuf := make([]byte, len(b))
    t := transform.Chain(norm.NFD, transform.RemoveFunc(isMn), norm.NFC)
    n, _, err := t.Transform(mnBuf, b, true)
    if err != nil {
        return nil, err
    }
    mnBuf = mnBuf[:n]
    tlBuf := bytes.NewBuffer(make([]byte, 0, len(mnBuf)*2))
    for i, w := 0, 0; i < len(mnBuf); i += w {
        r, width := utf8.DecodeRune(mnBuf[i:])
        if r == '-' {
            tlBuf.WriteByte(' ')
        } else {
            if d, ok := transliterations[r]; ok {
                tlBuf.WriteString(d)
            } else {
                tlBuf.WriteRune(r)
            }
        }
        w = width
    }
    return tlBuf.Bytes(), nil
}

func LoadZip(filename string) ([]byte, error) {
    // Open file for reading
    fi, err := os.Open(filename)
    if err != nil {
        return nil, err
    }
    defer fi.Close()
    // Attach ZIP reader
    fz, err := zlib.NewReader(fi)
    if err != nil {
        return nil, err
    }
    defer fz.Close()
    // Pull
    data, err := ioutil.ReadAll(fz)
    if err != nil {
        return nil, err
    }
    return norm.NFC.Bytes(data), nil // return normalized
}

func getTokens(pibn string) []string {
    var data []byte
    var err error
    data, err = LoadZip(`/storedir/` + pibn + `/text.zip`)
    checkErr(err)
    data, err = removeAccentsBytesDashes(data)
    checkErr(err)
    data = bytes.ToLower(data)
    data = reg2.ReplaceAll(data, []byte("$2")) // remove contractions
    data = reg.ReplaceAllLiteral(data, nil)
    tokens := strings.Fields(string(data))
    return tokens
}

func (t *Trainer) Start() {
    data, err := ioutil.ReadFile(`list.txt`)
    checkErr(err)
    pibns := bytes.Fields(data)
    for i, pibn := range pibns {
        tokens := getTokens(string(pibn))
        t.addTokens(tokens)
        if i%100 == 0 {
            runtime.GC() // I added this just to try to stop the memory craziness, but it makes no difference
        }
    }
}

func (t *Trainer) addTokens(tokens []string) {
    for _, tok := range tokens {
        if _, ok := dictionary[tok]; ok {
            if indx, ok2 := t.Tokens.Find(tok); ok2 {
                ar := t.Tokens.Value[indx]
                ar[0]++
                t.Tokens.Value[indx] = ar
                t.TokensCount++
            } else {
                t.Tokens.AddKeyAt(tok, indx)
                t.Tokens.Value = append(t.Tokens.Value, [5]uint32{0, 0, 0, 0, 0})
                copy(t.Tokens.Value[indx+1:], t.Tokens.Value[indx:])
                t.Tokens.Value[indx] = [5]uint32{1, 0, 0, 0, 0}
                t.TokensCount++
            }
        }
    }
    return
}

func LoadDictionary() {
    dictionary = make(map[string]bool)
    data, err := ioutil.ReadFile(`dictionary`)
    checkErr(err)
    words := bytes.Fields(data)
    for _, word := range words {
        strword := string(word)
        dictionary[strword] = false
    }
}

var reg = regexp.MustCompile(`[^a-z0-9\s]`)
var reg2 = regexp.MustCompile(`\b(c|l|all|dall|dell|nell|sull|coll|pell|gl|agl|dagl|degl|negl|sugl|un|m|t|s|v|d|qu|n|j)'([a-z])`) //contractions
var dictionary map[string]bool

func main() {
    trainer := new(Trainer)
    LoadDictionary()
    trainer.Start()
}

最佳答案

如果您从一个大字符串中进行分词，请确保避免内存固定。从上面的评论来看，这些标记听起来像是一个大字符串的子字符串。

您可能需要在 getTokens() 函数中添加一些额外的内容，以确保 token 不会固定内存。

func getTokens(...) {
    // near the end of your program
    for i, t := range(tokens) {
        tokens[i] = string([]byte(t))
    }
}

顺便说一下，使用 ioutil.ReadFile 将整个文件读入内存一下子看起来很可疑。你确定你不能使用 bufio.Scanner ？

我正在更仔细地查看代码...如果您真的关心内存问题，请利用 io.Reader .您应该尽量避免一次吸收整个文件的内容。使用 io.Reader 和 transform “沿着 Cereal ”。您现在使用它的方式与其初衷背道而驰。您正在使用的转换包的全部意义在于构建可以流式传输数据的灵活读取器。

例如，这是您正在做的事情的简化:

package main

import (
    "bufio"
    "bytes"
    "fmt"
    "unicode/utf8"

    "code.google.com/p/go.text/transform"
)

type AccentsTransformer map[rune]string

func (a AccentsTransformer) Transform(dst, src []byte, atEOF bool) (nDst, nSrc int, err error) {
    for nSrc < len(src) {
        // If we're at the edge, note this and return.
        if !atEOF && !utf8.FullRune(src[nSrc:]) {
            err = transform.ErrShortSrc
            return
        }
        r, width := utf8.DecodeRune(src[nSrc:])
        if r == utf8.RuneError && width == 1 {
            err = fmt.Errorf("Decoding error")
            return
        }
        if d, ok := a[r]; ok {
            if nDst+len(d) > len(dst) {
                err = transform.ErrShortDst
                return
            }
            copy(dst[nDst:], d)
            nSrc += width
            nDst += len(d)
            continue
        }

        if nDst+width > len(dst) {
            err = transform.ErrShortDst
            return
        }
        copy(dst[nDst:], src[nSrc:nSrc+width])
        nDst += width
        nSrc += width
    }
    return
}

func main() {
    transliterations := AccentsTransformer{'Æ': "E", 'Ø': "OE"}
    testString := "cØØl beÆns"
    b := transform.NewReader(bytes.NewBufferString(testString), transliterations)
    scanner := bufio.NewScanner(b)
    scanner.Split(bufio.ScanWords)
    for scanner.Scan() {
        fmt.Println("token:", scanner.Text())
    }
}

然后将变压器链接在一起变得非常容易。因此，例如，如果我们想从输入流中删除所有连字符，只需使用 transform.Chain 即可。适本地:

func main() {
    transliterations := AccentsTransformer{'Æ': "E", 'Ø': "OE"}
    removeHyphens := transform.RemoveFunc(func(r rune) bool {
        return r == '-'
    })
    allTransforms := transform.Chain(transliterations, removeHyphens)

    testString := "cØØl beÆns - the next generation"
    b := transform.NewReader(bytes.NewBufferString(testString), allTransforms)
    scanner := bufio.NewScanner(b)
    scanner.Split(bufio.ScanWords)
    for scanner.Scan() {
        fmt.Println("token:", scanner.Text())
    }
}

我没有详尽地测试上面的代码，所以请不要在没有充分测试的情况下复制粘贴它。 :P 我只是很快就把它煮熟了。但是这种方法——避免读取整个文件——会更好地扩展，因为它将以 block 的形式读取文件。

关于memory-leaks - Go:内存使用过多，内存泄漏，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25175111/

文章推荐： git - 我如何配置 gitweb 和 gitolite 以便它们一起工作？

文章推荐： windows - 如何让 Windows 记住我的密码 key ？

java - Android - IntentReceiver 泄漏/泄漏/泄漏
IntentReceiver 正在泄漏由于 onDetachedFromWindow 在某些情况下未被调用。 @Override protected void onDetachedFromWind
iPhone - UIImage 泄漏、CGBitmapContextCreateImage 泄漏
好吧，我很难追踪这个内存泄漏。运行此脚本时，我没有看到任何内存泄漏，但我的 objectalloc 正在攀升。 Instruments 指向 CGBitmapContextCreateImage >
iphone - 使用仪器检测 C 泄漏(泄漏)
我编写了一个测试代码来检查如何使用 Instrument(Leaks)。我创建了一个单一 View 应用程序，单击按钮后我加载了一个像这样的新 View ... - (IBAction)btn_clk
Python单调增加内存使用量(泄漏？)
我正在使用这个简单的代码并观察单调增加的内存使用量。我正在使用这个小模块将内容转储到磁盘。我观察到它发生在 unicode 字符串上而不是整数上，我做错了什么吗？当我这样做时: >>> from u
iphone - NSXMLParser 泄漏
我有以下泄漏的代码。 Instruments 表示，泄漏的是 rssParser 对象。我“刷新”了 XML 提要，它运行了该 block 并且发生了泄漏...... 文件.h @interface
iphone - NSFileManager 泄漏
我在我编写的以下代码片段中发现了内存泄漏 NSFileManager *fileManager=[[NSFileManager alloc] init]; fileList=[[fileManager
javascript - 一段时间后HTML5音频停止工作(泄漏)
因此，我正在开发HTML5 / javascript rts游戏。观察一直有几种声音在播放。因此，对我来说，是一段时间后声音听起来像是“崩溃”，并且此浏览器选项卡上的所有声音都停止了工作。我只能通过重
perl - 了解开发::泄漏
下面是我正在使用的一段代码及其输出。 my $handle; my $enterCount = Devel::Leak::NoteSV($handle); print "$date entry $en
Go goroutine 泄漏
在这篇关于 go-routines 泄漏的帖子之后，https://www.ardanlabs.com/blog/2018/11/goroutine-leaks-the-forgotten-sende
c - 执行后内存(泄漏)
我想知道为什么在执行 ./a.out 后随机得到以下结果。有什么想法我做错了吗？谢谢 http://img710.imageshack.us/img710/8708/trasht.png 最佳答案正
ios - 二维码扫描后内存峰值/泄漏
我正在 Swift 中开发一个应用程序，在呈现捕获我放在一起的二维码的自定义 ViewController 后，我注意到出现了巨大的内存跳跃。该代码本质上基于以下示例:http://www.appc
javascript - XMLHttpRequest 泄漏
下面是我的 javascript 代码片段。它没有按预期运行，请帮我解决这个问题。 function getCurrentLocation() { console.log("insi
java - 卡夫卡生产者巨大的内存使用(泄漏？)
我们在生产环境中部署了 3 个代理 Kafka 0.10.1.0。有些应用程序嵌入了 Kafka Producer，它们将应用程序日志发送到某个主题。该主题有 10 个分区，复制因子为 3。我们观察
iphone - appendFormat 泄漏
我正在使用仪器来检测一些泄漏，但有一些泄漏我无法解决； NSMutableString *textedetails = [[NSMutableString alloc] init];
ios - 性能工具 - 泄漏
如果我使用性能工具测试我的代码 - 泄漏，它没有检测到任何泄漏。这是否意味着代码没有泄漏任何内存？我有一个越狱的 iPhone，我可以监控可用内存。如果有人知道，那就是 SBSettings。我测试
ios - ABPersonCopyImageData 泄漏
我在从 AddressBook 中获取图像时遇到了很大的问题，下面我粘贴了我的代码。此 imageData 从未被释放，在我的 Allocations Instruments 上它看起来总是在内存中它
ios - class_copyIvarList 泄漏
- (NSMutableArray *)getArrayValue:(NSArray *)array{ NSMutableArray *valueArray = [NSMutableArra
读取字符串值时 iPhone 泄漏
Instruments 工具说这是一个泄漏，有什么想法吗？我在 for 循环结束时释放变量对象在上述方法的开头，这就是我设置变量对象的方式，即自动释放； NSMutableArray *varia
ios - 泄漏 CGImageMergeXMPPropsWhithLegacyProps
我正在跟踪我的 iOS 应用程序的内存泄漏，我有一个奇怪的泄漏导致我的应用程序崩溃......负责的框架是:CGImageMergeXMPPropsWhithLegacyProps。在某些时候，我的应
ios - NSOperationQueue 泄漏？
我正在尝试使用 NSOperationQueue 在后台线程中执行一个方法，如下所示: NSOperationQueue *queue = [NSOperationQueue new]; NS

IT王子

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

memory-leaks - Go:内存使用过多，内存泄漏