gpt4 book ai didi

machine-learning - 使用 K 均值聚类文本数据中的聚类 ID 作为监督学习模型的特征是不是一个坏主意?

转载 作者:行者123 更新时间:2023-11-30 09:13:53 25 4
gpt4 key购买 nike

我正在构建一个模型,该模型将预测流经管道的产品的交货时间。

我有很多不同的功能,其中一个是一个字符串,其中包含一些有关产品用途的单词(通常是缩写、应用程序的名称等)。我之前在做特征工程的时候根本没有使用过这个字段。

我认为最好对此数据进行某种类型的聚类,然后使用聚类 ID 作为我的模型的特征,也许交付时间与该字段中存在的信息类型相关。

这是我的想法)

1) 清理和标记文本。

2) TF-IDF

3)聚类

但是仔细想想,这是一个坏主意吗?因为聚类是基于旧数据的,所以如果新数据中引入了新词,聚类算法将无法捕获新词,并且现在可能应该以不同的方式对数据进行聚类。这是否意味着每当我想要预测新的数据点时,我都必须重新训练整个模型(k 均值模型,然后是监督模型)?有没有这方面的最佳实践?

是否有更好的方法来查找文本数据的聚类以用作监督模型中的特征?

最佳答案

我理解首先使用无监督聚类算法来亲自查看找到了哪些聚类的冲动。当然,如果这种方式对您的任务有帮助,您可以尝试一下。

但是,由于您已经标记了数据,因此您可以传递产品描述,而无需中间聚类。然后,您的监督算法将自行学习此功能是否以及如何帮助您完成任务(当然需要进行预处理,例如删除停用词、清理、标记化和特征提取)。

根据您的文本描述,我还可以想象一些简单的序列嵌入可以用作特征提取。嵌入是一个例如 300 维的向量,它以 hp office printer 的方式描述单词。和canon ink jet应彼此靠近,但nice leatherbag应与其他短语相距较远。例如fasText-Word-Embeddings已经接受过英语培训。获得 hp office printer 序列的单个嵌入可以取三个向量的平均向量(有更多方法可以获取整个序列的嵌入,例如 doc2vec)。

但最终您需要运行测试来选择您的功能和方法!

关于machine-learning - 使用 K 均值聚类文本数据中的聚类 ID 作为监督学习模型的特征是不是一个坏主意?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60138070/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com