python - 头脑 Storm : parsing txt emails into a structured object (JSON etc)-6ren

python - 头脑 Storm : parsing txt emails into a structured object (JSON etc)

转载作者：太空宇宙更新时间：2023-11-03 15:35:09

26

4

对于我的论文项目，我将处理大量电子邮件。我需要提取所有 header 字段并将它们传输到某种数据结构中，最好是像 JSON 这样通用的数据结构。

现在，我一直在研究这个问题，发现了很多半途而废的工作解决方案。我不想让你告诉我如何做到这一点，只是提出一些想法。

现在我的计划是使用 python 来解析 header 字段。我选择 python 是因为它很好、很简单，而且我有使用它的经验。此外，还有很多图书馆。问题是 python 官方电子邮件处理不能很好地处理重复字段，这对我来说至关重要。特别是对于标题“已接收:”，因为该标题允许跟踪跨多个邮件服务器的电子邮件传输。

官方库忽略多个字段，只存储第一个 -.-"

有什么想法吗？你会如何解决这个问题？

最佳答案

这个答案可能对您有帮助:problem with email parsing with python and multiple Received records

The python doc for email.getitem() says:

Note that if the named field appears more than once in the message’s headers, exactly which of those field values will be returned is undefined. Use the get_all() method to get the values of all the extant named headers.

so, use e.get_all(i) instead of e[i] to get all values of the Received: header.

关于python - 头脑 Storm : parsing txt emails into a structured object (JSON etc)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42582030/

26

4

0

文章推荐： python - Setter dict 就像对象中的属性一样

文章推荐： python - 向嵌套饼图添加图例

文章推荐： C#项目加载不同版本的系统程序集

apache-storm - Storm 用户界面不工作
我们正在以伪模式执行 Storm 拓扑。 Storm 拓扑运行良好，能够连接 Storm UI (8080)。但是Storm UI 没有显示正在运行的拓扑信息。也重新启动了 Storm UI 进程
apache-storm - Storm 拓扑中的可选流
我们有一个相当简单的 Storm 拓扑，让人头疼。我们的一个 bolt 可以发现它正在处理的数据是有效的，并且每件事都正常进行，或者它可以发现它是无效但可以修复的。在这种情况下，我们需要将其发送以进
apache-storm - Storm 中的三叉戟状态是什么？
我是 Storm 中 Trident 的新手。我对 TridentState 感到很头疼。据我了解，三叉戟维护每个批次的状态(即元数据)(批次中的所有元组是否都通过在数据库中维护事务 ID 来完全处理
apache-storm - Storm 场分组
我有以下情况: 有许多 bolt 计算不同的值该值被发送到可视化 bolt 可视化 bolt 打开一个网络套接字并发送值以某种方式可视化问题是，可视化 bolt 总是相同的，但它为可以作为其输入的
apache-storm - Storm 场分组示例
我正在使用 Kafka storm，kafka 向 storm 发送/发出 json 字符串，在 storm 中，我想根据 json 中的键/字段将负载分配给几个工作人员。怎么做？在我的例子中，它是
apache-storm - Storm 支持类似批处理的处理
我需要使用 Storm 处理成批的元组。我的最后一个 bolt 必须等到拓扑接收到整个批次，然后才能进行一些处理。为避免混淆 - 对我来说，批处理是一组实时出现的 N 条消息，该术语不必与批处理 (H
apache-storm - Storm 中的连接被拒绝错误
我是 Storm 的新手..我遇到了以下错误 java.net.ConnectException: Connection refused at sun.nio.ch.SocketChannel
apache-storm - Storm - 主管在重启时崩溃
这是一个让我发疯的问题。我的本地 LAN 上运行着一台机器 Storm 实例。我目前正在运行 v0.9.1-incubating发布版本(来自 the Apache Incubator site。问题
apache-storm - Storm ClassNotFoundException
我是第一次使用 Storm(从开始使用 Storm 学习)，我的项目在运行时失败并出现 ClassNotFoundException: [WARNING] java.lang.ClassNotFoun
apache-storm - Storm 拓扑配置
如何为 Storm 拓扑提供自定义配置？例如，如果我构建了一个连接到 MySQL 集群的拓扑，并且我希望能够在不重新编译的情况下更改需要连接的服务器，我该怎么做？我的偏好是使用配置文件，但我担心文件本
apache-storm - Storm 好用吗？
我一直在阅读 Storm并尝试使用 Storm-starter 中的示例。我想我明白了这个概念，它非常适用于许多情况。我有一个我想做的测试项目来了解更多关于这方面的信息，但我想知道 Storm 是否
apache-storm - Storm 中的背压
在我们的 Storm 1.0.2 应用程序中，我们面临内存不足的异常。在调试时，我们发现 Kafka spout 向 Bolt 发出了太多消息。 bolt 的运行能力几乎为 4.0。那么有没有一种方法
apache-storm - 三叉戟拓扑中的并行配置( Storm )
看完this和 this我很难理解如何配置我的三叉戟拓扑。基本上我的 Storm 应用程序正在读取 kafka ，进行一些数据操作，最后写入 Cassandra . 这是我目前构建拓扑的方式: pr
apache-storm - build Storm 启动器 : getting error "POM for storm-core missing"
我已经从 https://github.com/apache/incubator-storm 下载了 incubator-storm 代码.现在，我尝试使用以下命令运行 WordCountTopolo
apache-storm - 了解 Storm 架构
我一直在努力理解 Storm 架构，但我不确定我是否理解正确。我会尽量准确地解释我认为的情况。请解释什么 - 如果 - 我错了，什么是对的。初步想法: worker http://storm.apa
apache-storm - 重新平衡后 Storm 任务状态会转移到新的执行器吗？
这是我阅读后想到的一个问题: What is the "task" in Storm parallelism 如果我需要在 bolt 的内部状态中保留一些信息，例如，在经典的单词计数用例中，将 bol
apache-storm - Apache Storm 无法从种子主机中找到领导者灵气
我已经使用 docker compose 安装了 Apache-Storm docker-compose.yml: kafka: image: spotify/kafka ports:
apache-storm - 以编程方式获取 Storm 拓扑统计信息
我正在围绕我的 Storm 拓扑构建一个监控服务，并希望能够获取各个时间窗口周围的失败元组数量，类似于 Storm UI 如何在 10m、3h 和 1d 窗口中显示失败元组的数量。我的监控服务目前是
apache-storm - 向 Storm 提交拓扑
我已经在我的机器上配置了 Storm。 Zookeeper、Nimbus 和 Supervisor 运行正常。现在我想向这个 Storm 提交一个拓扑。我正在尝试使用 Storm jar 。但我
apache-storm - (Twitter) Storm 的聚合窗口
我在玩 Storm，我想知道 Storm 在哪里指定(如果可能)聚合时的(翻滚/滑动)窗口大小。例如。如果我们想在 Twitter 上找到前一小时的热门话题。我们如何指定一个 bolt 应该每小时返回

首页

博学

6Ren·AI

商城

python - 头脑 Storm : parsing txt emails into a structured object (JSON etc)