gpt4 book ai didi

math - 向量数量不同的两个图节点之间的余弦相似度计算

转载 作者:行者123 更新时间:2023-11-30 09:23:43 25 4
gpt4 key购买 nike

作为研究的一部分,我正在实施名为“ Efficient Graph-Based Semi-Supervised Learning of Structured Tagging Models”的论文。

作为本文第3部分的图构造过程的一部分,我需要定义某种相似性度量来计算连接一对节点的每个边的边权重。根据该论文,我必须为此创建一个PMI(逐点相互信息)矢量。我要做的是为每个令牌上出现的功能计算PMI。

在本文中,每个n-gram都被称为“类型”,并且其每次出现都被称为“令牌”。

例如,如果我们将x2-x3-x4设为当前类型,它在两种情况下出现,即x1-x2-x3-x4-x5和x6-x2-x3-x4-x7,则我必须计算一组与类型x2-x3-x4。但是以某种方式,此过程似乎很复杂且不清楚。这是我得到的:


我应该为每个令牌上的每个功能计算PMI。这将为每个令牌生成一个PMI向量,最终结果将是当前Type的PMI向量数组。数组大小将等于给定类型的令牌数。现在,作为最后一步,我应该测量不同节点的相似性。但是问题是每种类型的结果向量数组都有不同的大小,因此我无法将这些数组相互比较。


那么,解决方案是什么?我在这里弄错了吗?

最佳答案

对于数据集中出现的每个三字母组合,您始终可以获得表1中列出的9个特征。对于1-2-3-4-5和6-2-3-4-7,您还可以计算( (12345)和(62346),(234)和(234),(12)和(62),(45)和(47),....中心字为0,但如果您要比较的三字组不同,则不会为0。因此应该保留数组大小。

关于math - 向量数量不同的两个图节点之间的余弦相似度计算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20813333/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com