作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是 Azure 机器学习的新手。我们正在尝试使用 Azure 机器学习来实现问题相似度算法。我们有大量的问题和答案。我们的目标是确定新添加的问题是否重复?就像Stackoverflow在我们提出新问题时建议现有问题一样?我们可以使用azure机器学习服务来解决这个问题吗?有人可以引导我们走向正确的方向吗?
最佳答案
是的,您可以使用 Azure 机器学习工作室,并且可以使用 Jennifer 提出的方法。
但是,我认为最好针对包含实验中所有当前问题的数据库运行 R 脚本,并为每次比较返回相似性度量。
查看以下论文中的一些示例(从简单/基本到更高级),了解如何执行此操作: https://www.researchgate.net/publication/4314910_Question_Similarity_Calculation_for_FAQ_Answering
一个简单的开始方法就是实现一个简单的“词袋”比较。这将产生一个距离矩阵,您可以将其用于聚类或用于返回类似的问题。下面的 R 代码就是这样的事情,本质上你构建一个大字符串,第一句是新问题,然后是所有已知问题。显然,这种方法不会真正考虑问题的含义,只会在相同的单词使用时触发。
library(tm)
library(Matrix)
x <- TermDocumentMatrix( Corpus( VectorSource( strings.with.all.questions ) ) )
y <- sparseMatrix( i=x$i, j=x$j, x=x$v, dimnames = dimnames(x) )
plot( hclust(dist(t(y))) )
关于azure - 如何在 Azure 机器学习中检测接近重复的行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35358383/
我是一名优秀的程序员,十分优秀!