gpt4 book ai didi

kernel - 当对 TfIdfVectorizer 使用 linear_kernel 或 cosine_similarity 时,我收到错误 "Kernel died, restarting"

转载 作者:行者123 更新时间:2023-12-03 14:57:21 37 4
gpt4 key购买 nike

使用 linear_kernel 或 cosine_similarity 时为 TfIdfVectorizer ,我收到错误“内核已死,正在重新启动”。

我正在为 TfID 方法 Vectorizer 和 fit_transform 运行 scikit 学习函数在一些文本数据上,例如下面的示例,但是当我想计算距离矩阵时,出现错误“内核已死,正在重新启动”。

我是否使用cosine_similaritylinear_kernel功能:

tf = TfidfVectorizer(analyzer='word' stop_words='english')
tfidf_matrix = tf.fit_transform(products['ProductDescription'])

--cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)
--cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

也许问题是我的数据的大小?

我的 tiidf 矩阵是 (178350,143529) 它应该生成一个 (178350,178350) cosine_sim 矩阵。

最佳答案

据我了解,您要计算 N x N 相似度表。
在那种情况下(csr 矩阵相当大),很难一次计算,
我的方法是“cosine_similarity(tfidf_matrix[index], tfidf_matrix[:])”* N 次。
其实我是用pyspark执行的
defcalculate_one_to_all_similarity(index):
...
余弦相似度(tfidf_matrix[索引],tfidf_matrix[:]
rdd.map(lambda r:calculate_one_to_all_similarity(r2index[r]))

关于kernel - 当对 TfIdfVectorizer 使用 linear_kernel 或 cosine_similarity 时,我收到错误 "Kernel died, restarting",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49213927/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com