gpt4 book ai didi

machine-learning - 如何使用有限的数据集为科学文本生成标签?

转载 作者:行者123 更新时间:2023-11-30 09:51:06 25 4
gpt4 key购买 nike

我开始从事我的 ML 类(class)项目,该项目将对科学文本进行分类,并根据其主题是否为“A”来对其进行标记。我遇到的问题是他们为我提供了有限的数据集。通常,科学文本会使用复杂且不规则的单词,这些单词在 Google 新闻或 Twitter 等预训练的 word2vec 模型中通常不存在,并且这些单词在文本的含义方面非常重要。所以我想知道,我可以做什么来使用这些预先训练的模型并预测新单词的含义?

最佳答案

所以,不要使用预先训练的模型。它们不仅会缺少域单词,而且即使共享单词,“新闻文章”或“Twitter”中最常用的单词的含义也可能与您的域不匹配。

使用感兴趣的领域作为训练数据来训练您自己的词向量或其他文档向量并不难。

原始“段落向量”论文的后续论文“Document Embedding With Paragraph Vectors”,专门以主题敏感的方式评估段落向量(在 PV-DBOW 变体中)。对于具有相同编辑指定“类别”的维基百科文章对,它会检查 PV-DBOW 是否使该对文章比随机选择的第三篇文章更接近。它对 886,000 篇 Arxiv 论文执行类似的检查。

即使您的数据集很小,您也可以使用类似的技术。即使练习提供了一个小数据集,也许可以使用具有类似词汇表的其他公共(public)数据集来丰富您的模型。

(上述论文中使用的 PV-DBOW 模式,将单词训练添加到文档向量训练中,类似于使用选项 dm= 的 Python gensim 库中的 Doc2Vec 类0,dbow_words=1。)

关于machine-learning - 如何使用有限的数据集为科学文本生成标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45026220/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com