gpt4 book ai didi

python - 仅获取电子邮件文本的可靠方法,不包括以前的电子邮件

转载 作者:太空狗 更新时间:2023-10-29 21:47:43 26 4
gpt4 key购买 nike

我正在创建一个基本系统,允许用户通过电子邮件回复网站上的话题。但是,大多数电子邮件客户端在其回复电子邮件中包含以前电子邮件的文本。该文本在网站上是不需要的。

有没有一种可靠的方法可以只提取新邮件,而无需事先了解早期电子邮件?我正在使用 Python 的 email 类。


示例消息:

Content-Type: text/plain; charset=ISO-8859-1

test message! This is the part I want.

On Thu, Mar 24, 2011 at 3:51 PM, <test@test.com> wrote:

> Hi!
>
> Herman just posted a comment on the website:
>
>
> From: Herman
> "Hi there! I might be interested"
>
>
> Regards,
> The Website Team
> http://www.test.com
>

这是来自 gmail 的回复邮件,我相信其他客户端可能会采用不同的方式。一个好的开始可能是忽略以 > 开头的行,但在新消息之间也可能有类似的行,然后可能应该保留它们。我还会保留内容类型行和日期行。

最佳答案

电子邮件回复的格式取决于客户。没有可靠的方法来提取最新的消息而不会有删除太多或不够的风险。

但是,标记引号的常用方法是在引号前加上 > 前缀因此以该字符开头的行 - 特别是如果在电子邮件的末尾或开头有多个行 - 很可能是引号。

但是 On Thu, Mar 24, 2011 at 3:51 PM, <test@test.com> wrote:从你的例子中很难提取。以 : 结尾的行就在引用可能表明它属于引用之前,您无法确定 - 它也可能是新消息的一部分,而冒号只是一个拼写错误 . (在德语键盘上 :SHIFT+.)。

关于python - 仅获取电子邮件文本的可靠方法,不包括以前的电子邮件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5420402/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com