gpt4 book ai didi

java - 部分语音标注 - 从哪里开始?

转载 作者:行者123 更新时间:2023-12-01 17:39:57 24 4
gpt4 key购买 nike

您好,我想知道如何实现此类任务的解决方案:

有一个 500Mb 的纯英文文本文件。

我想收集有关单词出现频率的统计数据,但还要确保正确识别每个单词(或大多数单词)。

用“她大声哭”这句话中的“哭”来说被分类为名词,“别哭”将在统计中给出动词。

此外,最好过滤掉专有名称,以便它们形成另一个字典。

其他任务会更困难。我想找到出现的单词经常聚在一起并建立此类事件的列表。

比如说,“绿草如茵”,“美丽的姑娘”,“小心谨慎”,“你说得对”。这样我们就可以准确地说出该语言中经常一起使用哪些单词序列。

我该如何开始?有关于该主题的开放 Java 工具和好书吗?

最佳答案

对这些主题的精彩介绍是 Foundations of Statistical Natural Language Processing .

Foundations of Statistical Natural Language Processing

在软件方面,您可以查看类似 Stanford Part-Of-Speech Tagger 的内容。或LingPipe .

关于java - 部分语音标注 - 从哪里开始?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2206182/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com