gpt4 book ai didi

python - Spark 在 Python 中使用 map reduce 分析大型 mbox 邮箱文件

转载 作者:太空宇宙 更新时间:2023-11-04 02:43:59 27 4
gpt4 key购买 nike

我有一个很大的 mbox 文件,我可以使用邮箱 api 解析它并转储到 csv

import mailbox
import csv
mbox = mailbox.mbox("emailfile.mbox")
for message in mbox:
with open('mail.csv','w') as fp:
writer = csv.writer(fp,delimiter=',')
for message in mbox:
data = [ (message['Date'],message['From'], message['To'], message['subject']) ]
writer.writerows(data)
print data

我如何使用 pySpark 和 map reduce 来做到这一点?我不知道如何将文件加载到 rdd 中并以 map reduce 方式使用邮箱 api。

有什么想法吗?

最佳答案

我想出了怎么做,我已经在这里上传了我的代码 - https://github.com/bbalegere/Spark-EmailDump-Analyser

我使用 formail 命令将 mbox 文件拆分为单独的 eml 文件,然后使用 sc.wholeTextFiles 读取包含所有 eml 文件的目录并对其运行并行操作。

关于python - Spark 在 Python 中使用 map reduce 分析大型 mbox 邮箱文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45675973/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com