gpt4 book ai didi

azure - 如何在 Azure 机器学习中检测接近重复的行?

转载 作者:行者123 更新时间:2023-12-03 04:47:01 25 4
gpt4 key购买 nike

我是 Azure 机器学习的新手。我们正在尝试使用 Azure 机器学习来实现问题相似度算法。我们有大量的问题和答案。我们的目标是确定新添加的问题是否重复?就像Stackoverflow在我们提出新问题时建议现有问题一样?我们可以使用azure机器学习服务来解决这个问题吗?有人可以引导我们走向正确的方向吗?

最佳答案

是的,您可以使用 Azure 机器学习工作室,并且可以使用 Jennifer 提出的方法。

但是,我认为最好针对包含实验中所有当前问题的数据库运行 R 脚本,并为每次比较返回相似性度量。

查看以下论文中的一些示例(从简单/基本到更高级),了解如何执行此操作: https://www.researchgate.net/publication/4314910_Question_Similarity_Calculation_for_FAQ_Answering

一个简单的开始方法就是实现一个简单的“词袋”比较。这将产生一个距离矩阵,您可以将其用于聚类或用于返回类似的问题。下面的 R 代码就是这样的事情,本质上你构建一个大字符串,第一句是新问题,然后是所有已知问题。显然,这种方法不会真正考虑问题的含义,只会在相同的单词使用时触发。

library(tm)
library(Matrix)
x <- TermDocumentMatrix( Corpus( VectorSource( strings.with.all.questions ) ) )
y <- sparseMatrix( i=x$i, j=x$j, x=x$v, dimnames = dimnames(x) )
plot( hclust(dist(t(y))) )

关于azure - 如何在 Azure 机器学习中检测接近重复的行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35358383/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com