gpt4 book ai didi

java - 如何使用 JavaMail 处理多部分/替代邮件?

转载 作者:搜寻专家 更新时间:2023-10-30 21:15:51 24 4
gpt4 key购买 nike

我编写了一个应用程序,它从收件箱中获取所有电子邮件,过滤包含特定字符串的电子邮件,然后将这些电子邮件放入 ArrayList 中。

将电子邮件放入列表后,我正在对所述电子邮件的主题和内容做一些处理。这适用于没有附件的电子邮件。但是当我开始使用带附件的电子邮件时,一切都不再像预期的那样有效了。

这是我的代码:

public void getInhoud(Message msg) throws IOException {
try {
cont = msg.getContent();
} catch (MessagingException ex) {
Logger.getLogger(ReadMailNew.class.getName()).log(Level.SEVERE, null, ex);
}
if (cont instanceof String) {
String body = (String) cont;


} else if (cont instanceof Multipart) {
try {
Multipart mp = (Multipart) msg.getContent();
int mp_count = mp.getCount();
for (int b = 0; b < 1; b++) {
dumpPart(mp.getBodyPart(b));
}
} catch (Exception ex) {
System.out.println("Exception arise at get Content");
ex.printStackTrace();
}
}
}

public void dumpPart(Part p) throws Exception {
email = null;
String contentType = p.getContentType();
System.out.println("dumpPart" + contentType);
InputStream is = p.getInputStream();
if (!(is instanceof BufferedInputStream)) {
is = new BufferedInputStream(is);
}
int c;
final StringWriter sw = new StringWriter();
while ((c = is.read()) != -1) {
sw.write(c);
}

if (!sw.toString().contains("<div>")) {
mpMessage = sw.toString();
getReferentie(mpMessage);
}
}

电子邮件的内容存储在一个字符串中。

当我尝试阅读没有附件的邮件时,这段代码工作正常。但是如果我使用带附件的电子邮件,字符串也包含 HTML 代码甚至附件编码。最终,我想存储电子邮件的附件和内容,但我的首要任务是只获取文本,而无需任何 HTML 或附件编码。

现在我尝试了一种不同的方法来处理不同的部分:

public void getInhoud(Message msg) throws IOException {
try {
Object contt = msg.getContent();

if (contt instanceof Multipart) {
System.out.println("Met attachment");
handleMultipart((Multipart) contt);
} else {
handlePart(msg);
System.out.println("Zonder attachment");

}
} catch (MessagingException ex) {
ex.printStackTrace();
}
}

public static void handleMultipart(Multipart multipart)
throws MessagingException, IOException {
for (int i = 0, n = multipart.getCount(); i < n; i++) {
handlePart(multipart.getBodyPart(i));
System.out.println("Count "+n);
}
}

public static void handlePart(Part part)
throws MessagingException, IOException {

String disposition = part.getDisposition();
String contentType = part.getContentType();
if (disposition == null) { // When just body
System.out.println("Null: " + contentType);
// Check if plain
if ((contentType.length() >= 10)
&& (contentType.toLowerCase().substring(
0, 10).equals("text/plain"))) {
part.writeTo(System.out);
} else if ((contentType.length() >= 9)
&& (contentType.toLowerCase().substring(
0, 9).equals("text/html"))) {
part.writeTo(System.out);
} else if ((contentType.length() >= 9)
&& (contentType.toLowerCase().substring(
0, 9).equals("text/html"))) {
System.out.println("Ook html gevonden");
part.writeTo(System.out);
}else{
System.out.println("Other body: " + contentType);
part.writeTo(System.out);
}
} else if (disposition.equalsIgnoreCase(Part.ATTACHMENT)) {
System.out.println("Attachment: " + part.getFileName()
+ " : " + contentType);
} else if (disposition.equalsIgnoreCase(Part.INLINE)) {
System.out.println("Inline: "
+ part.getFileName()
+ " : " + contentType);
} else {
System.out.println("Other: " + disposition);
}
}

这是从 System.out.printlns 返回的内容

Null: multipart/alternative; boundary=047d7b6220720b499504ce3786d7
Other body: multipart/alternative; boundary=047d7b6220720b499504ce3786d7
Content-Type: multipart/alternative; boundary="047d7b6220720b499504ce3786d7"

--047d7b6220720b499504ce3786d7
Content-Type: text/plain; charset="ISO-8859-1"

'Text of the message here in normal text'

--047d7b6220720b499504ce3786d7
Content-Type: text/html; charset="ISO-8859-1"
Content-Transfer-Encoding: quoted-printable

'HTML code of the message'

此方法返回电子邮件的正常文本以及邮件的 HTML 编码。我真的不明白为什么会这样,我用谷歌搜索了一下,但似乎没有其他人遇到过这个问题。

感谢任何帮助,

谢谢!

最佳答案

我发现使用 JavaMail 库阅读电子邮件比预期的要困难得多。我不怪 JavaMail API,而是怪我对 RFC-5322 的理解不足。 -- 互联网电子邮件的官方定义。

作为一个思想实验:考虑一下电子邮件在现实世界中会变得多么复杂。可以“无限”地将消息嵌入到消息中。每条消息本身可能有多个附件(二进制或人类可读的文本)。现在想象一下这个结构在解析后在 JavaMail API 中变得多么复杂。

一些在使用 JavaMail 遍历电子邮件时可能会有所帮助的提示:

  • MessageBodyPart 都实现了 Part
  • MimeMessageMimeBodyPart 都实现了 MimePart
  • 在可能的情况下,将所有内容都视为部分MimePart。这将允许更轻松地构建通用遍历方法。

这些 Part 方法将有助于遍历:

  • String getContentType():以 MIME 类型开头。您可能想将其视为 MIME 类型(进行一些修改/剪切/匹配),但不要这样。最好只在调试器中使用此方法进行检查。
    • 奇怪的是,无法直接提取 MIME 类型。而是使用 boolean isMimeType(String) 来匹配。仔细阅读文档以了解强大的通配符,例如 "multipart/*"
  • Object getContent():可能是instanceof:
    • Multipart -- 更多 Part 的容器
      • 转换为 Multipart,然后使用 int getCount()BodyPart getBodyPart(int) 作为从零开始的索引进行迭代
        • 注意:BodyPart 实现了 Part
      • 根据我的经验,Microsoft Exchange 服务器定期提供两个正文副本:纯文本和 HTML。
        • 要匹配纯文本,请尝试:Part.isMimeType("text/plain")
        • 要匹配 HTML,请尝试:Part.isMimeType("text/html")
    • 消息(实现部分)——嵌入或附加的电子邮件
    • String(只是正文——纯文本或 HTML)
      • 请参阅上面关于 Microsoft Exchange 服务器的注释。
    • InputStream(可能是 BASE64 编码的附件)
  • String getDisposition():值可能为null
    • 如果 Part.ATTACHMENT.equalsIgnoreCase(getDisposition()),则调用 getInputStream() 以获取附件的原始字节。

最后,我找到了 official Javadocs排除 com.sun.mail 包中的所有内容(可能还有更多)。如果您需要这些,请直接阅读代码,或通过 downloading the source 生成未过滤的 Javadocs并在项目的mail项目模块中运行mvn javadoc:javadoc

关于java - 如何使用 JavaMail 处理多部分/替代邮件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13331989/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com