gpt4 book ai didi

Java垃圾邮件过滤器

转载 作者:行者123 更新时间:2023-12-01 05:56:38 24 4
gpt4 key购买 nike

我正在尝试使用贝叶斯算法在 Java 中创建垃圾邮件过滤器。

我使用包含电子邮件的文本文件,并使用正则表达式分割 token ,将这些值存储到 HashMap 中。

我的问题是,使用正则表达式,电子邮件地址被分割,而不是:johnsmith@example.com

正则表达式使 token 变为:约翰史密斯示例

这同样适用于 IP 地址,因此,例如,而不是:192.55.34.322

正则表达式将标记拆分为:1925534322

那么有人知道我可以阅读电子邮件并按原样存储其内容的方法吗?

修正:我使用的正则表达式不保留 IP 地址或电子邮件地址。它将这些分开。

我想知道正则表达式是否不是正确的选择,以及是否可以建议我使用任何替代方案来过滤电子邮件以挑选出我想要的特征。

最佳答案

在标记化之前找到一种方法将电子邮件正文与 header 信息分开。

关于Java垃圾邮件过滤器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2744744/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com