gpt4 book ai didi

python - 解析电子邮件中的 HTML 内容

转载 作者:太空宇宙 更新时间:2023-11-03 14:30:50 30 4
gpt4 key购买 nike

我正在尝试编写一个 python 脚本来阅读我的电子邮件。我能够正确获取大部分内容,例如 ToFromSubject。但在 body 中,我也获得了文本及其 HTML 代码,如下所示。

enter image description here

下面是从电子邮件中提取内容的代码部分

email_message = email.message_from_string(raw_email)
print 'To:', email_message['To']
print 'Sent from:', email_message['From']
print 'Date:', email_message['Date']
print 'Subject:', email_message['Subject']
print '*'*30, 'MESSAGE', '*'*30
maintype = email_message.get_content_maintype()
#print maintype

if maintype == 'multipart':
for part in email_message.get_payload():
if part.get_content_maintype() == 'text':
print part.get_payload()
elif maintype == 'text':
print email_message.get_payload()
print '*'*69

完整代码的 Git 链接:Email-parser

如何摆脱 HTML 代码并仅获取纯文本?

最佳答案

邮件正文采用 MIME 编码 - 这就是它包含纯文本和 HTML 格式文本的原因。为了仅获取正文的明文,您首先需要对消息进行 MIME 解码。你可以使用python的email package进行 MIME 解码。另请参阅this question了解更多信息。

关于python - 解析电子邮件中的 HTML 内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47317367/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com