gpt4 book ai didi

artificial-intelligence - 简单自然语言处理 : How to use ngram to do word similarity?

转载 作者:行者123 更新时间:2023-11-30 09:13:51 26 4
gpt4 key购买 nike

我听说 google 使用最多 7-gram 来进行语义相似性比较。我对查找上下文中相似的单词(即猫和狗)感兴趣,并且想知道如何在 n > 2 的情况下计算 n 元语法模型上两个单词的相似度。

所以基本上给定一个文本,比如“你好,我的名字是 blah blah。我爱猫”,然后我生成上述内容的 3 克集合:

[('你好', '我的', '名字'), ('我的名字是'), ('名字', '是', '废话'), ('是', '废话', '废话'), ('废话','废话','我'), (‘废话’、‘我’、‘爱’)、 ('我','爱','猫')]

如果您没有就如何解决这个特定的 NGRAM 问题提出建议,请不要回复

我可以使用什么样的计算来查找“猫”和“名字”之间的相似性? (应该是0.5)我知道如何用二元组来做到这一点,只需除以 freq(cats,name)/( freq(cats,) + freq(name,) )。但是当 n > 2 时呢?

最佳答案

我用谷歌搜索“三元组之间的相似性”并得出this article它将单词分成 3 个字母段。我知道这并不完全是您想要的,但也许这足以帮助您继续前进。

本文还根据 3 个字母的方法比较了 2 个单词。似乎需要在两个搜索词之间进行比较,例如“你好,我的名字是 blah blah。我爱猫”和“我的名字是别的东西。我爱狗”。当然,我对这个域名了解不多,所以如果这是不正确的,我很抱歉,我只是希望激发对你的问题的一些思考。

关于artificial-intelligence - 简单自然语言处理 : How to use ngram to do word similarity?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2444953/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com