gpt4 book ai didi

mongodb - max_df 对应的文档比 Ridge 分类器中的 min_df 错误

转载 作者:IT老高 更新时间:2023-10-28 12:30:30 25 4
gpt4 key购买 nike

我用大量数据训练了脊分类器,使用 tfidf vecotrizer 对数据进行矢量化处理,它曾经运行良好。但现在我面临一个错误

'max_df corresponds to < documents than min_df'

数据存储在MongoDB中。
我尝试了各种选项来解决它,最后当我在 Mongodb 中删除了一个只有 1 个文档(1 条记录)的集合时,它正常工作并像往常一样完成了训练。

但我需要一个不需要删除记录的解决方案,因为我需要该记录。

另外,我不理解该错误,因为它仅存在于我的机器中。该脚本以前在我的系统中可以正常工作,即使该记录存在于数据库中。该脚本在其他系统中也可以正常工作。

有人可以帮忙吗?

最佳答案

那个错误告诉你你的 max_df值小于 min_df值(value)。例如:

max_df = 0.7 # Removes terms with DF higher than the 70% of the documents

min_df = 5 # Terms must have DF >= 5 to be considered

并假设您的语料库中的文档总数为 7,所以 max_df现在是 0.7*7 = 4.9 和 min_df仍然是 5,那么 max_df < min_df ,这绝不应该发生,因为这意味着将考虑 0 个术语;从来没有一个词的 DF 低于 4.9 和高于 5。

关于mongodb - max_df 对应的文档比 Ridge 分类器中的 min_df 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39828369/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com