gpt4 book ai didi

java - 替换 token 中的所有内容,字母字符和句点除外

转载 作者:行者123 更新时间:2023-11-30 10:49:47 26 4
gpt4 key购买 nike

我正在使用一次接受一个单词的字符串分词器。当我阅读此标记时,我想从中删除所有不是字母字符 (A-Z) 和句点 (.) 的内容。我目前正在处理类似的东西,但它会留下一些奇怪的字符以及“,”之类的东西。我想知道是否有一种更居高临下和更有效的方式来处理这样的事情。

StringTokenizer biDoc = new StringTokenizer(new String(value.getBytes()));
while(biDoc.hasMoreElements()){
String token = new String(biDoc.nextToken().replaceAll("[-@#$%^&*',;!?:()\'\"/<>]+_", "").replace("/[0-9]", ""));
contentPrev.add(token);
}

所以我希望:H''''i i""m Bob.我去上学,我喜欢编程。会显示:嗨,我是鲍勃。我上学了,喜欢编程

这是我在这里的第一个问题,如果格式不正确,请见谅。

最佳答案

I want to strip everything from it that is no a Alphabetic character (A-Z) and a period(.)

要与 replaceAll() 一起使用,此正则表达式匹配所有要删除的不需要的字符:

[^a-zA-Z.]+

DEMO

关于java - 替换 token 中的所有内容,字母字符和句点除外,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35305495/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com