gpt4 book ai didi

machine-learning - 检测两个文档中的相似段落

转载 作者:行者123 更新时间:2023-11-30 08:29:39 26 4
gpt4 key购买 nike

我试图在 2 个文档中找到相似的段落。每个文档都有许多段落、多行文本。段落中的文字有一些变化。这些单词可能被插入、删除或拼写错误。例如

Doc1.Para

这是一行文字

Doc2.Para

这是一篇 lin 文本

您可以在此处看到某些单词缺失('of'),并且某些单词拼写不同。因此,这些段落不完全相同但相似。并且相似性不是基于语义或本质。它只是基于文字。

段落顺序不同。例如

文档 1

第 1 段
第 2 段
第 3 段
第 4 段

文档 2

第 3 段
第 4 段
第 1.1 段
第 2 段
第 1.2 段

在这里你可以看到顺序不一样。 paras 也可以分割,就像 Doc1.Para1 被分割成 2 个 paras Doc2.Para1.1 + Doc2.Para1.2。

我必须检测 Doc1 中的哪个段落与 Doc2 中的哪个段落相似。寻找一些开源工具或算法。

最佳答案

我之前曾成功使用词嵌入来捕获段落相似性。词嵌入,例如 Google 的 word2vec 生成的词嵌入,高维向量空间中的模型单词。因此,它们使得计算两个单词之间的语义相似度成为可能,例如计算它们各自向量之间的余弦。您可以直接从 word2vec 站点或从相关项目站点(例如 Polyglot)下载这些嵌入。 。

为了对段落之间的相似性进行建模,一种简单的解决方案是通过对该段落中所有单词的嵌入进行加权求和来计算段落嵌入。由于某些单词比其他单词包含更多信息,因此您可以通过 tf-idf 对单词嵌入进行加权。例如,这个词的意思。然后,您可以将两个段落之间的相似度计算为它们嵌入之间的余弦。

关于machine-learning - 检测两个文档中的相似段落,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30285706/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com