Python:msg.get_payload() 丢弃所需的数据，需要解决方案-6ren

Python:msg.get_payload() 丢弃所需的数据，需要解决方案

转载作者：太空宇宙更新时间：2023-11-03 19:15:24

25

4

您好，我在这里浏览了各种帖子，但没有一个回答我的问题，我有两个问题，1.我已经编写了一个脚本来使用 poplib 获取电子邮件，一切都工作正常，直到当我尝试解析电子邮件正文时，它去掉了标签以及其中的数据，我现在放弃了，在这里寻求帮助，希望你大家会引导我走向正确的方向，告诉我哪里做错了，或者我应该做什么才能让它发挥作用。

这是解析器脚本的来源

import sys
import socket
import poplib
import email
import csv
import re
try:
  host = "mail.someserver.com"
  mail = poplib.POP3(host)
  print mail.getwelcome()
  print mail.user("username@someserver.com")
  print mail.pass_("qaiaJWkvZT")
  print mail.stat()
  print mail.list()
  print ""

  emailWriter = csv.writer(open('emailMessages.csv', 'wb'), delimiter=',', quotechar='\'', quoting=csv.QUOTE_MINIMAL)
  emailWriter.writerow(['Messages'])
  if mail.stat()[1] > 0:
      print "You have new mail."
  else:
      print "No new mail."

  print ""

  numMessages = len(mail.list()[1])
  for i in range(numMessages):
      for j in mail.retr(i+1)[1]:
          #print j
          msg = email.message_from_string(j) # new statement
          print msg.get_payload(decode=True)
          #emailWriter.writerow([msg.get_payload(decode=True)]) # new statement

  mail.quit()
  input("Press any key to continue.")
except socket.error as e:
  print "Something went wrong! :(\nREASON:\n{0}:{1}".format(e.errno, e.strerror)
  raise
except:
  print "Something went wrong!", sys.exc_info()[0]
  raise

这是上面脚本生成的输出

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.or
g/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<style type="text/css">
BODY {







}
TD {



}
TH {


}
H1 {

}
TABLE,IMG,A {

}
</style>
</head>
<body>


<p><strong>PO Number:</strong> 35164</p>

<p><strong>Ship To:</strong><br />
Joe Pasloski<br />
16 Redwood Drive<br />Yorkton, SK  S3N2X7<br />
204-473-2218</p>


<table cellspacing="0" cellpadding="5" border="1" width="710" align="left">
<tr>



</tr>
<tr>



</tr>
</table>
</body>
</html>

但是，如果我更改脚本以直接在循环内打印 j 变量，它会给我这个

Return-Path: <orders@someserver.com>
Delivered-To: username@someserver.com
Received: (qmail 7636 invoked by uid 48); 14 Jul 2012 23:29:11 -0000
Date: 14 Jul 2012 23:29:11 -0000
Message-ID: <20120714232911.7635.qmail@b.inetuhosted.net>
To: username@someserver.com
Subject: Drop Ship Order - Joe Pasloski
From: Someserver.com <orders@someserver.com>
X-Mailer: PHP/5.2.17
MIME-Version: 1.0
Content-Type: multipart/alternative;
         boundary="2631183869_50020"
Reply-to: SomeServer.com <orders@someserver.com>
X-Antivirus: avast! (VPS 120714-2, 07/15/2012), Inbound message
X-Antivirus-Status: Clean

--2631183869_50020
Content-Type: text/plain;
        charset="iso-8859-1"
Content-Transfer-Encoding: 8bit



--2631183869_50020
Content-Type: text/html;
        charset="iso-8859-1"
Content-Transfer-Encoding: 8bit

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.or
g/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<style type="text/css">
BODY {
        MARGIN-TOP: 10px;
        MARGIN-BOTTOM: 10px;
        MARGIN-LEFT: 10px;
        MARGIN-RIGHT: 10px;
        FONT-SIZE: 12px;
        FONT-FAMILY: arial,helvetica,sans-serif
        PADDING: 0px;
}
TD {
        FONT-SIZE: 12px;
        FONT-FAMILY: arial,helvetica,sans-serif
        COLOR: #000000;
}
TH {
        FONT-SIZE: 13px;
        FONT-FAMILY: arial,helvetica,sans-serif
}
H1 {
    FONT-SIZE: 20px
}
TABLE,IMG,A {
        BORDER: 0px;
}
</style>
</head>
<body>


<p><strong>PO Number:</strong> 35164</p>

<p><strong>Ship To:</strong><br />
Joe Pasloski<br />
16 Redwood Drive<br />Yorkton, SK  S3N2X7<br />
204-473-2218</p>

<p><strong>Items:</strong>
<table cellspacing="0" cellpadding="5" border="1" width="710" align="left">
<tr>
        <th align="left" width="100">SKU</th>
        <th align="left" width="550">Product</th>
        <th align="left" width="60">Qty</th>
</tr>
<tr>
        <td>JJ-Hamper-Firetruck</td>
        <td>Frankie's Fire Truck Laundry Hamper</td>
        <td>1</td>
</tr>
</table>
</body>
</html>

如果我需要处理原始消息，如何有效地获取消息的正文部分，去掉不必要的 html 标签而不丢失任何数据？或者，如果可以通过使用 get_payload() 方法，我该怎么做才能使其工作。

请帮忙!

2.此外，有没有办法可以使用正则表达式获取表中包含的所有 SKU 信息？如果你也能提供给我，那将是一个优势。非常感谢

最佳答案

好吧，我自己找到了答案，文档说明了一切，帖子位于 Python: How to get HTML body of an email message using poplib?帮助我走向正确的方向..据我所知，我正在处理的消息不是多部分类型，并且在应用 get_payload() 时会丢失 html 数据，这就是为什么我必须实现一些正则表达式例程来去除 html 标签原始消息，为此我在原始消息上下载并使用了 Aaron Swartz 的 html2text 库，然后执行了 msg.get_payload() ..这是我所做的

import html2text # added to my source
numMessages = len(mail.list()[1])
  for i in range(numMessages):
      for j in mail.retr(i+1)[1]:

          msg = email.message_from_string(html2text.html2text(j)) 
          print msg.get_payload(decode=False)

这反过来又给了我

charset="iso-8859-1"











BODY {









}


TD {





}


TH {




}


H1 {



}


TABLE,IMG,A {



}










**PO Number:** 35170




**Ship To:**


Tami Curtis


67 E. Spring Creek Pkwy

Providence, UT 84332


4357553197









SKU


Product


Qty






JJ-Panel-Isabella-BK-PRT


Isabella Black Damask Curtains (2 Panels)


1

现在我只需要使用正则表达式对其进行更多清理，以获取不必要的换行符/空格和 CSS 标记的 reif。

希望它对其他人也有帮助:)干杯!

关于Python:msg.get_payload() 丢弃所需的数据，需要解决方案，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11488558/

25

4

0

文章推荐： css - Magento - 网格和产品信息上的不同价格样式

文章推荐： c# - 如何在 C# 中声明一个自由长度的二维数组

文章推荐： css - 向下滚动时 CSS3 渐变下方不需要的空白

visual-studio-2010 - Visual Studio 2010 Professional 解决方案/项目是否与 Visual Studio 2010 Premium 解决方案/项目 100% 兼容？
我只是想知道要安装哪个版本的 Visual Studio 2010(专业版或高级版)提示升级项目.. 项目包括:asp.net mvc、数据库和silverlight。最佳答案通常，由不同版本的相
[解决方案]几种通过iproute2来打通不同节点间容器网络的方式
几种通过 iproute2 来打通不同节点间容器网络的方式几种通过 iproute2 来打通不同节点间容器网络的方式 host-gw ipip vxlan 背景之前由于需
【解决方案】基于数据库驱动的自定义TypeHandler处理器
目录前言 1、TypeHandler 简介 1.1转换步骤 1.2转换规则 2、JSON 转换 3、枚举转换 4、文章小结
【解决方案】Java互联网项目中常见的Redis缓存应用场景
目录前言 1、常见 key-value 2、时效性强 3、计数器相关 4、高实时性 5、排行榜系列 6、文章小结前言在笔者 3 年的
【解决方案】Java互联网项目中消息通知系统的设计与实现（下）
目录前言四、技术选型五、后端接口设计 5.1业务系统接口 5.2App 端接口六、关键逻辑实现 6.1Red
【解决方案】Java互联网项目中消息通知系统的设计与实现（上）
目录前言一、需求分析 1.1发送通知 1.2撤回通知 1.3通知消息数 1.4通知消息列表二、数据模型设计
【解决方案】多租户技术架构设计入门（一）
目录前言一、多租户的概念二、隔离模式 2.1独立数据库模式 2.2共享数据库独立数据架构 2.3共享数据库共享数据架构
【解决方案】MySQL中的死锁问题还能这样解决（文末送书）
导读：虽然锁在一定程度上能够解决并发问题，但稍有不慎，就可能造成死锁。本文介绍死锁的产生及处理。死锁的产生和预防发生死锁的必要条件有4个，分别为互斥条件、不可剥夺条件、请求与保持条件和循环等待条
javascript - 获取波斯月的最后一天 + 解决方案
在浏览网页后，我找不到任何功能来执行此操作，我有可行的个人解决方案。也许它对某人有用。 **使用 Moment 插件转换日期。***moment(currentPersianDate).clone()
检测数字手写的 OCR 解决方案？
是否有一种解决方案可以很好地处理数字(1-10)手写？我试过tesseract，但我得到的只是垃圾。理想情况下是 OSS，但商业也可以。最佳答案 OpenCV 现在带有手写数字识别 OCR 示例。
multithreading - Delphi死锁解释/解决方案
在服务器应用程序上，我们有以下内容:一个称为 JobManager 的单例类。另一个类，Scheduler，不断检查是否需要向 JobManager 添加任何类型的作业。当需要这样做时，调度程序会执
javascript - 用于在应用程序中处理和捕获错误的工具/解决方案
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 5年前关闭。 Improve this qu
r - 解决方案。有代理时如何install_github
当您尝试从 GitHub 存储库安装某些 R 包时 install_github('rWBclimate', 'ropensci') 如果您遇到以下错误: Installing github repo
WPF 字体模糊问题-解决方案
问题在以下链接中进行了描述和演示: Paul Stovell WPF: Blurry Text Rendering www.gamedev.net forum Microsoft Connect: W
用于科学记数格式格式化的 R 解决方案
我正在寻找一种解决方案，使用标准格式 a × 10 b 在科学记数法下格式化 R 中的数字。一些同行评审的科学期刊都要求这样做，并且手动修改图表可能会变得乏味。下面是 R 标准“E 表示法”的示例，
java - 如何从另一个java应用程序内部启动资源jar - 解决方案
已编辑解决方案(如下...) 我有一个启动画面，它被打包到它自己的 jar 中。它有效。我可以通过以下方式从另一个 java 应用程序内部调用 Splash.jar: Desktop.getDesk
用于创建门户的 .NET 解决方案
什么是创建像 PageFlakes 或 iGoogle 这样的门户网站的好框架/包？？我们希望创建一个为员工提供 HR 服务的员工/HR 门户，但我们也需要一种足够灵活的产品，以便我们可以使用它来为
用于科学记数格式格式化的 R 解决方案
我正在寻找一种解决方案，使用标准格式 a × 10 b 在科学记数法下格式化 R 中的数字。一些同行评审的科学期刊都要求这样做，并且手动修改图表可能会变得乏味。下面是 R 标准“E 表示法”的示例，
search - 解决方案+遗传
如何将 solr 与 heritrix 集成？我想使用 heritrix 归档一个站点，然后使用 solr 在本地索引和搜索该文件。谢谢最佳答案使用 Solr 进行索引的问题在于它是一个纯文本
jquery - 全日历工作时间 [解决方案]
完整日历不包含工作时间功能选项(在任何一天的议程 View 中选择第一行和最后一行 - 例如公司不工作)。我做到了类似的事情: viewDisplay: function(view){

首页

博学

6Ren·AI

商城

Python:msg.get_payload() 丢弃所需的数据，需要解决方案