gpt4 book ai didi

python - 结合文本和数字列进行 ML 算法

转载 作者:行者123 更新时间:2023-11-30 09:17:32 26 4
gpt4 key购买 nike

这里我正在处理情绪分类问题,我必须预测推文是积极的、消极的还是中性的。这是我的数据集的一瞥:

tweet_id   airline_sentiment_confidence   negativereason   negativereason_confidence   airline   name   retweet_count   text   tweet_created   tweet location   user_timezone   airline_sentiment
Tr_tweet_1 1.000 NaN NaN Virgin America 0 tweets date Location Time Positive
Tr_tweet_2 0.3846 NaN 0.7033 Virgin America 0 tweets date Location Time Negative
Tr_tweet_3 0.6837 Bad flight 0.3342 Virgin America 0 tweets date Location Time Negative
Tr_tweet_4 1.000 Can't tell 1.000 Virgin America 0 tweets date Location Time Neutral
Tr_tweet_5 1.000 NaN NaN Virgin America 0 tweets date Location Time Neutral

但是,text 是我在 TfIdf_Vectorizer 中安装的列,并使用 logreg 来预测情绪。然而,我得到的准确度非常低,~68%,结果证明这是一个纯粹的 NLP 问题。然而,如果我能以某种方式使用其他功能,肯定会提高我的准确性。

我有兴趣了解如何将其他数字列以及文本列(例如 negativereason)作为特征与我的 text 列结合起来,以提高准确性。

或者有什么堆叠方法可以在这里完成吗?就像组合 Tfidf 的预测,然后再次使用其余数字列进行预测?

TL;DR如何将数字和文本列作为特征来进行良好的预测?

最佳答案

正如您提到的,解决此问题的一种方法是堆叠。您可以将每条推文表示为一个特征向量,其中向量中的每个位置代表一个单词/术语,其值是该单词的 tf-idf 值。然后,您可以将每条推文的 tf-idf 向量与您拥有的剩余数字列连接起来,并将这些向量中的每一个堆叠在一起以获得一个矩阵(一旦您有了一个矩阵,您就可以开始尝试不同的方法了)机器学习模型!)

需要注意的是,一旦您拥有每条推文的 tf-idf 向量,运行 PCA 等降维算法可能是有意义的,因为您将处理一个大而稀疏的向量。此外,根据您的数据,标准化每个连接向量可能是有意义的(例如,使所有内容都具有 0-1 的值)。最后,通常单个推文的文本信息不够丰富。您可能需要考虑将类似的推文聚合在一起以获得更好的结果。

关于python - 结合文本和数字列进行 ML 算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51302903/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com