gpt4 book ai didi

python - 是否可以使用 Google BERT 来计算两个文本文档之间的相似度?

转载 作者:太空宇宙 更新时间:2023-11-04 01:51:45 26 4
gpt4 key购买 nike

是否可以使用 Google BERT 计算两个文本文档之间的相似度?据我了解,BERT 的输入应该是有限大小的句子。一些作品使用 BERT 对句子进行相似度计算,例如:

https://github.com/AndriyMulyar/semantic-text-similarity

https://github.com/beekbin/bert-cosine-sim

是否有 BERT 的实现以将其用于大型文档而不是句子作为输入(具有数千个单词的文档)?

最佳答案

BERT 未接受过确定一个句子是否跟在另一个句子后面的训练。那只是一个 GLUE tasks还有更多。所有 GLUE 任务(和强力胶)都被 ALBERT 淘汰了。

BERT(和 Albert 就此而言)绝对是自然语言理解领域的最先进技术。 Doc2Vec 没有接近。 BERT 不是词袋方法。它是基于 Transformer 的双向注意编码器,Transformer 是 Google Brain 论文的化身 Attention is All you Need .另见 Visual breakdown Transformer 模型。

这是一种全新的看待自然语言的方式,它不使用 RNN 或 LSTM 或 tf-idf 或任何类似的东西。我们不再将文字或文档转换为矢量。 GloVes: Global Vectors for Word Representations与 LSTMs 是旧的。 Doc2Vec 很旧。

BERT 非常强大 - 就像,轻松通过图灵测试一样强大。看看

参见 superGLUE刚刚出来。滚动到底部看看这些任务有多疯狂。这就是 NLP 的用武之地。

好吧,现在我们已经放弃了 tf-idf 是最先进的想法 - 你想获取文档并查看它们的相似性吗?我会分两层在 Databricks 上使用 ALBERT:

  1. 执行提取式或抽象式摘要:https://pypi.org/project/bert-extractive-summarizer/ (注意这些文本文档有多大 - 并将您的文档缩减为摘要。

  2. 在一个单独的步骤中,获取每个摘要并执行第 3 页中的 STS-B 任务 GLUE

现在,我们在这里谈论的是绝对前沿的技术(Albert 刚刚在最近几个月问世)。你需要非常熟练才能完成这个,但这是可以做到的,我相信你!!

关于python - 是否可以使用 Google BERT 来计算两个文本文档之间的相似度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57882417/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com