gpt4 book ai didi

python - 在整个语料库上训练 W2V 模型是否合适?

转载 作者:行者123 更新时间:2023-11-30 09:03:53 24 4
gpt4 key购买 nike

我有一个自由文本医学叙述语料库,我将使用它来执行分类任务,目前包含大约 4200 条记录。

首先,我希望使用 w2v 创建词嵌入,但我有一个关于此任务的训练测试分割的问题。

当我训练 w2v 模型时,使用所有数据来创建模型是否合适?或者我应该只使用训练数据来创建模型?

真的,我的问题归结为:我是否应该获取整个数据集,创建 w2v 模型,用模型转换叙述,然后拆分,或者我应该拆分,创建 w2v,然后转换这两个集合独立?

谢谢!

编辑

我在工作地点发现了一个由供应商构建的内部项目;他们创建分割,并仅在训练数据上创建 w2v 模型,然后在不同的作业中独立地转换这两个集合;所以这是我上面指定的两个选项中的后者。这就是我认为的情况,因为我不想在任何测试数据上污染 w2v 模型。

最佳答案

NLP 中大多数此类问题的答案是“两者都尝试”:-)

测试数据与训练数据的污染不相关,或者在生成词向量时存在问题。这是您使用向量的模型中的一个相关问题。我发现在我的用例中使用整个语料库向量的性能会更好。

词向量的质量随着更多数据而提高。如果您不使用测试语料库,则需要一种方法来初始化词汇外向量并了解它们可能对模型性能产生的影响。

关于python - 在整个语料库上训练 W2V 模型是否合适?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57662405/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com