gpt4 book ai didi

machine-learning - Quora Question Pairs 挑战,使用二元交叉熵损失来预测两个问题是否问同一件事以评估预测

转载 作者:行者123 更新时间:2023-11-30 09:05:03 34 4
gpt4 key购买 nike

我有一个 csv 文件,其中包含来自 Quora 问题对挑战赛的问题对。对于每一对都有一个相应的标签,指定问题是否相同。我想创建一种方法,以便如果我们有未知的问题对,我可以回答他们是否问相同的问题。结果的准确性应使用二元交叉熵损失来确定。

这是我必须做的一个关于信息检索类(class)的项目。问题是,到目前为止我发现的所有解决方案都包括机器学习(例如神经网络),而我们在本类(class)中还没有学到如何使用任何机器学习模型。如何在不使用任何机器学习的情况下解决这个问题?

我考虑过清理数据(例如停用词重新排序和标点符号删除),计算 tf-idf,然后在两对之间应用余弦相似度。像这样,我可以在不使用标签的情况下找到已经给出的两个问题的相似程度。但是,如何利用标签来发挥我的优势,并在没有机器学习的情况下预测两个未知问题对之间的相似性,是否有一种我缺少的简单方法?

最佳答案

您需要使用机器学习模型来解决此问题。您已经完成了很好的清理部分,并使用 tf-idf 来获取该单词在给定问题中出现的次数。您还可以尝试 word-2vec 模型,它也会显示单词之间的语义。事实上 quora 使用随机森林作为模型来预测两个问题之间的相似性,您可以查看此链接以获取更多详细信息。 https://engineering.quora.com/Semantic-Question-Matching-with-Deep-Learning

现在您的解决方案过于简单,尽管一开始就很好。但如果你想要更高的准确性,我建议你了解逻辑回归、决策树等模型的基本知识来解决这个问题。

关于machine-learning - Quora Question Pairs 挑战,使用二元交叉熵损失来预测两个问题是否问同一件事以评估预测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54136855/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com