gpt4 book ai didi

python - 使用 Python 从电子邮件中提取文本

转载 作者:行者123 更新时间:2023-12-01 06:18:37 24 4
gpt4 key购买 nike

我的用户将通过电子邮件向我发送帖子 Posterous

我正在使用 Google Apps Engine (GAE) 接收和解析电子邮件。 GAE 返回消息的文本部分。

我需要从消息的纯文本部分中提取帖子。

纯文本可能会被促销页眉、页脚、签名等“污染”。

此外,我想省略“请发布此内容:”或一些人坦率地包含的类似内容。

您将如何实现这一目标?

有什么工具(比正则表达式更简单)我可以使用吗?

更新

示例:

(在所有这些示例中,帖子都是“Lorem ipsum sat amet...”

=====

Lorem ipsum dolor sat amet,consectetur adipisicing elit,sed do eiusmod tempor incididunt ut Labore et dolore magna aliqua。 Ut enim ad minim veniam, quis nostrud exeritation ullamco labouris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur。

维克多·P
victor.p@example.com
访问我的博客:www.example.com/victor

=====

你好,我喜欢你的页面。请您添加以下内容:Lorem ipsum dolor sat amet、consectetur adipisicing elit、sed do eiusmod tempor incididunt ut Labore et dolore magna aliqua。 Ut enim ad minim veniam, quis nostrud exeritation ullamco labouris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur。

=====

Lorem ipsum dolor sat amet,consectetur adipisicing elit,sed do eiusmod tempor incididunt ut Labore et dolore magna aliqua。

Ut enim ad minim veniam, quis nostrud exeritation ullamco labouris nisi ut aliquip ex ea commodo consequat.

Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur。

=====

如果您发现更多关于电子邮件的示例,请随时将它们包含在帖子中。

最佳答案

我会使用已编译的正则表达式列表。大致如下:

import re

regexes = (
re.compile("visit my blog at: .*$", re.IGNORECASE),
re.compile("please post this:", re.IGNORECASE),
re.compile("please can you include this:", re.IGNORECASE)
# etc
)

for filePath in files:
with open(filePath) as file:
for line in file:
for regex in regexes:
print(re.sub(regex, ""))

关于python - 使用 Python 从电子邮件中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1860375/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com