gpt4 book ai didi

machine-learning - 如何将 TFIDF 特征与其他特征结合起来

转载 作者:行者123 更新时间:2023-11-30 08:23:08 25 4
gpt4 key购买 nike

我有一个经典的 NLP 问题,我必须将新闻分类为假新闻或真实新闻。

我创建了两组功能:

A) 二元词频-逆文档频率

B) 使用pattern.en ( https://www.clips.uantwerpen.be/pages/pattern-en ) 获得的与每个文档相关的大约 20 个特征,如文本的主观性、极性、#stopwords、#verbs、#subject、关系语法等...

将 TFIDF 特征与其他特征结合起来进行单个预测的最佳方法是什么?非常感谢大家。

最佳答案

不确定您是否在技术上询问如何在代码中组合两个对象或理论上要做什么,所以我会尝试回答这两个问题。

从技术上讲,您的 TFIDF 只是一个矩阵,其中行是记录,列是特征。因此,为了进行组合,您可以将新功能作为列附加到矩阵的末尾。如果您使用 sklearn 执行此操作,则您的矩阵可能是一个稀疏矩阵(来自 Scipy),因此您必须确保您的新特征也是一个稀疏矩阵(或使另一个密集)。

这为您提供了训练数据,就如何处理它而言,那就有点棘手了。二元频率矩阵中的特征将是稀疏的(我在这里不是谈论数据结构,我只是说你将有很多 0),并且它将是二进制的。而您的其他数据是密集且连续的。尽管预测可能由密集变量主导,但这将按原样在大多数机器学习算法中运行。然而,通过一些特征工程,我过去使用树集成构建了几个分类器,这些分类器采用术语频率变量的组合,并添加了一些其他更密集的变量,并给出了增强的结果(例如,一个分类器,它查看 Twitter 个人资料并分类他们作为公司或个人)。通常,当我至少可以将密集变量分类为二进制(或分类,然后热编码为二进制)以便它们不占主导地位时,我会发现更好的结果。

关于machine-learning - 如何将 TFIDF 特征与其他特征结合起来,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48573174/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com