gpt4 book ai didi

大型 mbox 数据集上的 Python 邮箱

转载 作者:太空宇宙 更新时间:2023-11-03 12:07:12 28 4
gpt4 key购买 nike

我正在使用 python 包邮箱,我正在尝试提取消息并清理数据。我遇到了一个问题,对于大型数据库,我可以用我的示例文件调用构造函数,但是当我尝试打印任何消息时,我的程序挂起。我认为这是因为我要读取的文件超过 7GB。我该如何处理这个问题?

最佳答案

考虑手动拆分邮箱。通过逐行阅读,该格式相当容易处理(只要您只需要只读访问权限);您可以使用现有的类来实际解析各个消息。

查找 mbox 格式的定义 - 以“From”开头的行开始一封新邮件。您可以在这些标记处拆分大文件,然后使用mailbox 包一次只读取一个文件。

关于大型 mbox 数据集上的 Python 邮箱,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26499051/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com