gpt4 book ai didi

java - 如何使用java清理脏文本

转载 作者:太空宇宙 更新时间:2023-11-04 13:59:48 25 4
gpt4 key购买 nike

我正在努力从 Twitter 收集数据并对其进行处理,但我遇到的问题是:文本脏了,

示例:

String dirtyText="this*is#a*&very_dirty&String";

示例:

String dirtyText="All f dis happnd bcause u gave ur time, talent n passion.";

请我希望它尽可能简单。

最佳答案

这不是一个容易解决的问题。 所有发生的事情都可以被“清理”以产生所有*of*这件事发生所有*if*这件事发生。对于第一个示例,您只需将所有非字母字符替换为空格即可。请参阅this question了解如何做到这一点。

否则我认为你需要一个自然语言处理器,或者至少一个拼写检查器。猜测一条推文的正确英语应该是什么是一个极其复杂的问题。看看Jazzy用于开源拼写检查器。

关于java - 如何使用java清理脏文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29417609/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com