gpt4 book ai didi

machine-learning - 二值特征提取

转载 作者:行者123 更新时间:2023-11-30 09:24:08 26 4
gpt4 key购买 nike

我是用于自然语言处理目的的特征提取的初学者。我想知道如何使用 HashMap 来提取文本的特征。如果每个特征都是hashmap中的“键”,它的值是“值”(所有特征都是二进制的,0或1),是否意味着我需要有n个hashmap(n是文本中的单词数) )?因为对于每个单词我需要提取特征。

我说得对吗?

提前致谢,爱丽丝

最佳答案

是的,您可以使用 HashMap 来实现此目的,但是根据功能数量和您的内存要求,它可能不是最好或最快的数据结构,它实际上取决于您的领域。一般来说,将特征表示为存在或不存在会产生较差的结果。更好的方法是在对特征进行加权时使用 TF-IDF。

您所说的方法是“词袋”方法。在这里,您可以根据单词边界对文档进行标记,并将单词用作特征。作为第一遍,您应该删除停用词(即“a”、“and”、“the”),然后规范化您的数据(即 Now == now == nOw)。然后,您可以执行词干提取以进一步减小向量大小。

现在低估提取特征的一个好方法是看一下 MALLET 。我有一个非常简单的朴素贝叶斯实现,带有 RCV-1 解析器,您可以查看示例 Naive Bayes

关于machine-learning - 二值特征提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15257553/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com