gpt4 book ai didi

machine-learning - 使用 Weka 进行句子分类

转载 作者:行者123 更新时间:2023-11-30 09:13:38 25 4
gpt4 key购买 nike

我想用Weka对句子进行分类。我的特征是句子术语(单词)和每个术语的词性标签。我不知道如何计算属性,因为如果每个术语都作为一个特征呈现,那么每个实例(句子)的特征数量就会变得不同。并且,如果句子中的所有单词都呈现为一个特征,那么如何将单词与其 POS 标签关联起来。

有什么想法我应该如何进行吗?

最佳答案

如果我正确理解了这个问题,答案如下:最常见的是独立于它们在句子中的位置来处理单词,并通过每个已知单词在特征空间中出现的次数来表示特征空间中的句子。那句话。 IE。训练数据中的每个单词通常都有一个单独的数字特征。或者,如果您愿意使用 n-gram,则为训练数据中的每个 n-gram 提供一个单独的功能(可能具有某个频率阈值)。

对于 POS 标签,将它们用作单独的特征可能是有意义的,但前提是您感兴趣的分类与句子结构(语法)有关。否则,您可能只想将 POS 标记附加到单词上,这将部分消除那些可以代表不同词性的单词的歧义。

关于machine-learning - 使用 Weka 进行句子分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12297794/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com