gpt4 book ai didi

machine-learning - 将文档添加到评分的 TF-IDF 集合中?

转载 作者:行者123 更新时间:2023-11-30 08:52:48 24 4
gpt4 key购买 nike

我有大量已计算出 TF-IDF 的文档。我正准备向集合中添加更多文档,我想知道是否有一种方法可以将 TF-IDF 分数添加到新文档中,而无需重新处理整个数据库?

最佳答案

基本上有两种选择:

  1. 仅在需要时计算 tf-idf 分数。添加新文档现在很简单。您所要做的就是更新所有文档的数量、出现标记的文档的数量,并存储新文档的标记出现向量。

  2. 定期重新计算 tf-idf 向量,可能是在添加 100K 文档或类似内容之后。在这两者之间,只需使用旧值(所有文档的数量、 token 出现的文档数量)。

如果您的集合确实很大,您可能会想要采用第二种方法,因为新文档无论如何都不会改变单词的全局分布。也就是说,最好测试这两种方法并选择最适合您问题的一种。

关于machine-learning - 将文档添加到评分的 TF-IDF 集合中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3311485/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com