gpt4 book ai didi

python - 将生成的 TFIDF 稀疏向量链接到 Spark 中的原始文档

转载 作者:太空宇宙 更新时间:2023-11-03 16:53:03 24 4
gpt4 key购买 nike

我使用 Spark 和 Python 使用以下代码计算 TFIDF:

    hashingTF = HashingTF()
tf = hashingTF.transform(documents)
idf = IDF().fit(tf)
tfidf = idf.transform(tf)
for k in tfidf.collect():
print(k)

我得到了三个文档的以下结果:

    (1048576,[558379],[1.43841036226])
(1048576,[181911,558379,959994], [0.287682072452,0.287682072452,0.287682072452])
(1048576,[181911,959994],[0.287682072452,0.287682072452])

假设我有数千个文档,如何将生成的 TFIDF 稀疏向量链接到原始文档,知道我不关心将哈希键反转为原始术语。

最佳答案

由于 documentstfidf 具有相同的形状(分区数、每个分区的元素数),并且没有需要随机播放的操作,因此您可以简单地 zip 两个 RDD:

documents.zip(tfidf)

逆向哈希TF是for an obvious reason不可能。

关于python - 将生成的 TFIDF 稀疏向量链接到 Spark 中的原始文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35697363/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com