gpt4 book ai didi

pandas - 将 Sklearn TFIDF 与附加数据相结合

转载 作者:行者123 更新时间:2023-12-01 13:40:40 25 4
gpt4 key购买 nike

我正在尝试为监督学习准备数据。我有我的 Tfidf 数据,它是从我的数据框中名为“合并”的列生成的

vect = TfidfVectorizer(stop_words='english', use_idf=True, min_df=50, ngram_range=(1,2))
X = vect.fit_transform(merged['kws_name_desc'])
print X.shape
print type(X)

(57629, 11947)
<class 'scipy.sparse.csr.csr_matrix'>

但我还需要向这个矩阵添加额外的列。对于 TFIDF 矩阵中的每个文档,我都有一个附加数字特征的列表。每个列表的长度为 40,它由浮点数组成。

所以为了澄清起见,我有 57,629 个长度为 40 的列表,我想将它们附加到我的 TDIDF 结果中。

目前,我在 DataFrame 中有这个,示例数据:合并 ["other_data"]。下面是来自合并 ["other_data"] 的示例行
0.4329597715,0.3637511039,0.4893141843,0.35840...   

如何使用 TF-IDF 矩阵附加数据框列的 57,629 行?老实说,我不知道从哪里开始,希望得到任何指点/指导。

最佳答案

这将完成工作。

`df1 = pd.DataFrame(X.toarray())   //Convert sparse matrix to array
df2 = YOUR_DF of size 57k x 40

newDf = pd.concat([df1, df2], axis = 1)`//newDf is the required dataframe

关于pandas - 将 Sklearn TFIDF 与附加数据相结合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40570282/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com