gpt4 book ai didi

java - 我们如何使用 JAVA 在没有外部资源的情况下从推文中删除(或检测)非英语标签

转载 作者:行者123 更新时间:2023-12-01 15:17:32 25 4
gpt4 key购买 nike

如何从推文中删除非英语标签,同时保留主题标签 (#xxx)、网址 (@xxxx) 和提及 (@xxx)?我找到了这个 :内容.replaceAll("\W", "")这里:Remove all non-"word characters" from a String in Java, leaving accented characters? ,但这并没有真正的帮助。我知道有很多语言检测工具,例如微软的,以及其他复杂的方法,但我想要一些正则表达式,或者可以在 JAVA 中使用的方法,而无需外部资源(例如字典)。这是推文的示例:“Meeeeeee!RT @missLOVElace_:谁想要我的 80,000 条推文?”

如果 JAVA 中有方法可以检测推文是否为非英语,那就太好了。类似的在这里: http://babel-fett.heroku.com/但它是用 Ruby 编写的。

谢谢!

最佳答案

我使用了java正则表达式:content.replaceAll("[^A-Za-z0-9-_@#\s]", "")...它有效..我正在寻找一个java语言检测器;我正在寻找一款可以离线工作的强大工具。我找到了这个:http://code.google.com/p/language-detection/wiki/GettingStarted我认为这是一件好事。其他相关问题在这里:https://stackoverflow.com/q/1923844/1515897 , How to detect language of user entered text? .

关于java - 我们如何使用 JAVA 在没有外部资源的情况下从推文中删除(或检测)非英语标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11428275/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com