gpt4 book ai didi

java - 使用java从字符串中删除html标签

转载 作者:太空狗 更新时间:2023-10-29 13:32:48 24 4
gpt4 key购买 nike

<分区>

我正在编写一个程序来读取和分离垃圾邮件和非垃圾邮件。现在我正在使用 java 的 bufferedreader 类阅读它。我可以使用 replaceAll() 方法删除任何不需要的字符,如“(”或“.”等。我也想删除 html 标签,包括 &。如何实现这一点!?

谢谢

编辑:感谢您的回复,但我已经有了一个正则表达式,如何将我的需求结合起来并放入其中。这是我现在使用的正则表达式。

lines.replaceAll("[^a-zA-Z]", " ")

注意:我从 txt 文件中获取行。还有其他建议吗?!

24 4 0