gpt4 book ai didi

python - 处理 tf-idf 中不兼容的矩阵形状

转载 作者:行者123 更新时间:2023-12-03 09:12:51 24 4
gpt4 key购买 nike

我正在尝试匹配两个不同数据框 df1 和 df2 的公司名称。我正在尝试在两列上实现 tf-idf 和余弦相似度 - df1 中的 company1 和 df2 中的 company2。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
v = TfidfVectorizer()
tfidf_matrix1 = v.fit_transform(df1['company1'])
tfidf_matrix2 = v.fit_transform(df2['company2'])
cosine_similarity(tfidf_matrix2, tfidf_matrix1)

这给了我一个错误:

ValueError: Incompatible dimension for X and Y matrices: X.shape[1] 
== 31089 while Y.shape[1] == 46844

这可能是因为:

tfidf_matrix1.shape

给我 (78684, 46844) 作为输出。并且-

tiff_matrix2.shape

给我 (39462, 31089) 作为输出。如何纠正此错误?

最佳答案

基本上:

tfidf_matrix1 = v.fit_transform(df1['company1'])

tfidf_matrix2 = v.transform(df2['company2'])

您只需要在变换后进行一次拟合。

关于python - 处理 tf-idf 中不兼容的矩阵形状,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40366175/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com