gpt4 book ai didi

r - 导入和解析 .eml 文件

转载 作者:行者123 更新时间:2023-12-04 02:17:57 33 4
gpt4 key购买 nike

我希望有人能给我一些关于在 r 中导入和解析 .eml 文件的建议。我有一个包含大约 1000 个 .eml 文件的文件夹,其中包含如下条目的文本:

返回路径:

我想做的是将所有这些文件导入到 r 中的 data.frame 或 data.table 中,然后将电子邮件地址解析到一个单独的字段中。
我想我以前见过用文本文件和使用 grep 做的类似的事情。

如有任何提示,我们将不胜感激。

最佳答案

我从一个从 gmail 下载的 mbox 文件开始。将其分解为一堆 eml 格式的单独消息。然后从每个文件中提取我需要的行并将它们组装成一个数据框。

library(tm.plugin.mail)

mbf <- "mboxfile"
convert_mbox_eml(mbf, "emlfile2")

maildir <- "emlfile2"
mailfiles <- dir(maildir, full.names=TRUE)
readmsg <- function(fname) {
l <- readLines(fname)
subj <- grep("Subject: ", l, value=TRUE)
subj <- gsub("Subject: ", "", subj)
date <- grep("Date: ", l, value=TRUE)
date <- gsub("Date: ", "", date)
text1 <- tail(l, 3)[1]
text2 <- tail(l, 3)[2]
return(c(subj, date, text1, text2))
}

mdf <- do.call(rbind, lapply(mailfiles, readmsg))

关于r - 导入和解析 .eml 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32879496/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com