gpt4 book ai didi

parsing - 如何删除 mbox 格式电子邮件邮箱的重复项(重复数据删除)?

转载 作者:行者123 更新时间:2023-12-01 11:01:12 24 4
gpt4 key购买 nike

我有一个 mbox 邮箱,其中包含邮件的副本,它们仅在“X-Evolution:” header 中有所不同。

我想以尽可能快速和简单的方式删除重复的。这似乎已经写好了,但我还没有找到它,尽管我已经查看了 Python 邮箱模块、各种 perl mbox 解析器、formail 等等。

有人有什么建议吗?

最佳答案

这是我用的一个小脚本:

#!/bin/bash
IDCACHE=$(mktemp -p /tmp)
formail -D $((1024*1024*10)) ${IDCACHE} -s
rm ${IDCACHE}

邮箱需要通过它进行管道传输,同时进行去重。

-D $((1024*1024*10)) 设置了 10 兆字节的缓存,这是对我的一整年邮件进行重复数据删除所需数量的 10 倍多。 YMMV,因此请相应地进行调整。将它设置得太高会导致一些性能损失,将它设置得低会让它漏掉重复项。

formailprocmail 实用程序包的一部分,mktempcoreutils 的一部分。

关于parsing - 如何删除 mbox 格式电子邮件邮箱的重复项(重复数据删除)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10522544/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com