gpt4 book ai didi

java - Java 中的字符串标记化(大文本)

转载 作者:行者123 更新时间:2023-11-29 08:07:38 26 4
gpt4 key购买 nike

我有这么大的文本(读大)。我需要对每个单词进行标记化,对每个非字母进行定界。我使用 StringTokenizer 一次读取一个单词。然而,当我研究如何编写分隔符字符串(“每个非字母”)而不是做类似的事情时:

new StringTokenizer(text, "\" ();,.'[]{}!?:”“…\n\r0123456789 [etc etc]");

我发现基本上每个人都讨厌 StringTokenizer(为什么?)。

那么,我可以用什么代替呢?不要建议 String.split,因为它会复制我的大文本。我需要逐字逐句地浏览文本并在每个非字母上划定界限。是我自己构建一些东西更容易,还是有一些最佳实践方法来解决这个问题?

提前致谢!

最佳答案

StringTokenizer,根据文档 “StringTokenizer 是一个遗留类,尽管不鼓励在新代码中使用它,但出于兼容性原因保留了它。建议任何寻求此功能的人使用 String 的 split 方法或 java .util.regex 包代替。” 这几乎总结了 StringTokenizer 的仇恨。

如果内存确实是个问题,您可以逐个字符地遍历字符串和分隔符之间的子字符串,进行处理,然后继续。

关于java - Java 中的字符串标记化(大文本),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10052882/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com