gpt4 book ai didi

tokenize - 斯坦福 NLP 分词器

转载 作者:行者123 更新时间:2023-12-02 21:40:00 25 4
gpt4 key购买 nike

如何使用斯坦福解析器在 java 类中标记字符串?

我只能找到 documentProcessor 和 PTBTokenizer 从外部文件获取文本的示例。

 DocumentPreprocessor dp = new DocumentPreprocessor("hello.txt");
for (List sentence : dp) {
System.out.println(sentence);
}
// option #2: By token

PTBTokenizer ptbt = new PTBTokenizer(new FileReader("hello.txt"),
new CoreLabelTokenFactory(), "");
for (CoreLabel label; ptbt.hasNext(); ) {
label = (CoreLabel) ptbt.next();
System.out.println(label);
}

谢谢。

最佳答案

PTBTokenizer 构造函数采用 java.io.Reader,然后您可以使用 StringReader 来解析文本

关于tokenize - 斯坦福 NLP 分词器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12847643/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com