gpt4 book ai didi

nlp - 将多个句子传递给 BERT?

转载 作者:行者123 更新时间:2023-12-04 16:38:48 26 4
gpt4 key购买 nike

我有一个包含段落的数据集,我需要将其分为两类。这些段落通常有 3-5 句话长。其中绝大多数的长度不到 500 字。我想利用BERT来解决这个问题。
我想知道我应该如何使用 BERT 来生成这些段落的向量表示,尤其是将整个段落传递给 BERT 是否可以?
已有相关问题的信息讨论herehere .这些讨论集中在如何使用 BERT 来表示整个文档。在我的例子中,段落并没有那么长,而且确实可以在不超过 512 的最大长度的情况下传递给 BERT。但是,BERT 是在句子上进行训练的。句子是相对独立的意义单位。我想知道将多个句子输入 BERT 是否与模型的设计目的没有根本冲突(尽管这似乎是定期进行的)。

最佳答案

我认为你的问题是基于一种误解。即使 BERT paper使用术语 sentence很多时候,它不是指语言句子。该论文将一个句子定义为

an arbitrary span of contiguous text, rather than an actual linguistic sentence.


因此,将整个段落传递给 BERT 是完全没问题的,也是他们可以处理这些段落的原因。

关于nlp - 将多个句子传递给 BERT?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64881478/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com