gpt4 book ai didi

machine-learning - SKLearn交叉验证:

转载 作者:行者123 更新时间:2023-11-30 08:55:45 27 4
gpt4 key购买 nike

我正在进行文本分类,并将处理训练数据中未捕获的单词,这意味着该单词应被视为未知单词。

有谁知道 scikit 的交叉验证是否会将训练数据中不存在的特定单词视为看不见?

或者 scikit 是否会将所有单词视为特征,即使它不在训练集中?

最佳答案

如果您在包含特征提取器(例如 CountVectorizer 或 TfidfVectorizer)和分类器的管道上进行交叉验证,那么一切都会自动开箱即用:仅在 train 中出现的特征 测试集将被忽略(不会映射到向量表示中的维度)。

有关如何使用 vocabulary_ 属性将要素名称映射到维度的更多详细信息,请参阅 documentation on text feature extraction .

还有一个示例显示 how to cross validate a pipeline that comprise a feature extraction component and a classifier .

编辑:修复训练/测试拼写错误

编辑 2:修复了示例的损坏链接。

关于machine-learning - SKLearn交叉验证:,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14363298/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com