gpt4 book ai didi

java - 删除/替换空子字符串

转载 作者:太空宇宙 更新时间:2023-11-04 07:29:22 25 4
gpt4 key购买 nike

我目前正在研究一些东西,应该计算推文文件中给出的单词数。我正在用空格替换特殊字符和仅短两个字符的单词。因此,稍后我可以获得双空格,我将在下一行中替换它。变量“words”是一个HashMap,其中存储了单词对应的频率。

tweet = tweet.replaceAll("[^\\d\\p{L} ]", " ");
tweet = tweet.replaceAll("\\b.{1,2}\\b", " ");
tweet = tweet.replaceAll("\\s{2,}", " ");
tweet = tweet.toLowerCase();
for (String word : tweet.split(" ")){
if (words.containsKey(word)){
words.put(word, words.get(word)+1);
} else {
words.put(word, 1);

我的问题是,生成的单词列表及其频率包含空字符串。大多数时候,这是最常见的字符串。我不明白它从何而来,也不知道如何摆脱它,希望有人可以帮助我。

最佳答案

tweet.trim().split(" +")

还可以考虑将变音标记组合为属于单词\pM

tweet = tweet.replaceAll("[^\\d\\p{L}\\p{M}]", " ");

关于java - 删除/替换空子字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17989006/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com