- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试将安然电子邮件的所有正文附加到一个文件中,以便我可以通过消除停用词并使用 NLTK 将其拆分为句子来处理这些电子邮件的文本。我的问题是转发和回复的消息,我不知道如何清理它们。这是我到目前为止的代码:
import os, email, sys, re,nltk, pprint
from email.parser import Parser
rootdir = '/Users/art/Desktop/maildir/lay-k/elizabeth'
#function that appends all the body parts of Emails
def email_analyse(inputfile, email_body):
with open(inputfile, "r") as f:
data = f.read()
email = Parser().parsestr(data)
email_body.append(email.get_payload())
#end of function
#defining a list that will contain bodies
email_body = []
#call the function email_analyse for every function in directory
for directory, subdirectory, filenames in os.walk(rootdir):
for filename in filenames:
email_analyse(os.path.join(directory, filename), email_body )
#the stage where I clean the emails
with open("email_body.txt", "w") as f:
for val in email_body:
if(val):
val = val.replace("\n", "")
val = val.replace("=01", "")
#for some reason I had many of ==20 and =01 in my text
val = val.replace("==20", "")
f.write(val)
f.write("\n")
这是部分输出: 好吧,对于摄影师和乐队来说,我想说我们已经远远超出了我们的预算!这是有关摄影师的信息。我对一些主要的方案有一种感觉,我们可以在排练晚宴上至少花几个小时来协商。我不知道这通常要花多少钱,但他并不便宜!------------------------ 由Elizabeth Lay/HOU/AZURIX于09/转发13/99 07:34 PM --------------------------------------acollins@reggienet.com 于 09/13/99 05:37:37 PM请回复 acollins@reggienet.com 收件人:Elizabeth Lay/HOU/AZURIX@AZURIXcc:主题:Denis Reggie 婚纱摄影伊丽莎白您好:恭喜您即将结婚!我是阿什利·柯林斯 (Ashley Collins),雷吉先生的协调员。琳达·凯斯勒 (Linda Kessler) 将您的电子邮件地址转发给了我,以便我可以向您提供雷吉先生婚纱摄影的摄影报道信息。
所以结果根本不是纯文本。关于如何正确执行的任何想法?
最佳答案
您可能需要查看正则表达式来解析转发和回复文本,因为格式在整个语料库中应该保持一致。
要删除转发的文本,您可以使用如下正则表达式:
-{4,}(.*)(\d{2}:\d{2}:\d{2})\s*(PM|AM)
这将匹配四个或更多连字符之间的所有内容以及格式为 XX:XX:XX PM 的时间。匹配 3 个破折号可能也可以正常工作。我们只是想避免在电子邮件正文中匹配连字符和破折号。您可以使用此正则表达式并在此链接中编写自己的正则表达式来匹配“收件人”和“主题” header :https://regex101.com/r/VGG4bu/1/
你也可以看看NLTK书的3.4节,里面讲了Python中的正则表达式:http://www.nltk.org/book/ch03.html
祝你好运!这听起来是一个有趣的项目。
关于python - 如何从安然电子邮件正文中删除 "forwarded message"标题和不需要的内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47739050/
我附上了一个我尝试使用 html/css 实现的示例(如果您看不到图像:名字和姓氏,然后第二行是职位描述)。我希望所有文本(两行)在一个 div 中强制对齐(左和右),但我不确定这是否可能。我尝试了一
我想使两个 h1 元素成为 div 上的标题/页眉。所以每个都在特定的 div 之上。 Youtube Achievements
我想让每个 EditText 对象都有自己的标题,就像 Pure Android 指南中那样 (screenshot) 这个东西有原生支持吗?我想他们也可能会使用带有部分的 ListView ,但这对
是否可以像 UITableView headerView 一样创建 UICollectionView 标题 View ?我的意思是整个集合 View 的标题 View ,而不是每个部分的重复 View
我一直在遵循有关排版的 Google 官方 Material 设计指南 (http://www.google.com/design/spec/style/typography.html),但我发现它们
我目前正在尝试找到可以帮助我从视频文件中提取元数据或信息的 python 库,例如 [ mp4, Mkv, Avi, WebM, mpg ] 格式为例。 我主要从视频文件中提取的主要数据是 [标题、描
你好, 这是我正在尝试做的: 将每个缩略图的内容(img + 标题)居中。我的 img 必须是 span3,标题必须是 span4。 这是我的问题: 我可以获取内容中心,或者标题 float 在 im
我有一个带有导航栏的应用程序,可以从一个 View Controller 导航到下一个 View Controller 。在某些模拟器和设备上导航到下一个 View Controller 时,后退按钮
我遇到了一些非常酷的 t-sql,可以从一个 t-sql 查询中的选定行生成一个逗号分隔的列值列表: SELECT @MyList = ISNULL(@MyList,'') + Title + ',
请确保将 HTML heading 标签只用于标题。不要仅仅是为了生成粗体或的文本而使用标题。 搜索引擎使用标题为您的网页的结构和内容编制索引。 因为用户可以通过标题来快速浏览您的网页,所以用标
我正在使用 wkhtmltopdf 将 html 转换为 pdf。 我想在每个页面中添加标题,但它只显示在第一页(目录)中。 我使用的命令是 "C:\Program Files\wkhtmltopdf
如何使用 ggplot2 显示观察的方向(标题)?有没有办法调整shape=17 (三角形)以便它“指向”下一次观察? 示例代码 library(ggplot2) dat % pivot_wide
我尝试在 cocoa 应用程序中显示/隐藏标题栏。我使用以下代码: if ([window styleMask]==NSResizableWindowMask) { [wind
我有这样的 HTML 标题 http://s1.postimg.org/4ebyk3qwv/image.png 当我编写这段代码时: document.getElementById("TL85_1_
我叫麦克。谢谢你的帮助。 在Wordpress中,我们已经设计了我们的网站,以便在Facebook调试器中og数据尽可能接近youtube。尽管如此,在Facebook上共享视频的方式还是不同的。尽管
从 web 应用程序的客户端,我点击了服务器端路由,它只是第三方 API 的包装器。使用分派(dispatch),我试图让服务器端请求返回 exact header 和第三方 API 对客户端 AJA
从 web 应用程序的客户端,我点击了服务器端路由,它只是第三方 API 的包装器。使用分派(dispatch),我试图让服务器端请求返回 exact header 和第三方 API 对客户端 AJA
我是 SAPUI5 的新手,在导航、侧边栏和标题方面遇到一些问题。我想开发一个带有标题和侧边栏的应用程序。我为此使用“ToolPage”。每个页面都包含工具页,如下所示:
我最近在为客户做的项目中被介绍给Go。他们已经建立了代码库,需要进行一些更改。 我注意到所有的方法,结构等等都有一些奇怪的类似于标题的注释,如下所示: // SomeType ... type Som
我创建了一个采用整个屏幕布局的标题布局(xml 文件)... 我还创建了一个 listView 并将此 header_layout 添加到 listView 中: LayoutInflater inf
我是一名优秀的程序员,十分优秀!