gpt4 book ai didi

php - 余弦相似度与汉明距离

转载 作者:IT王子 更新时间:2023-10-29 00:11:39 25 4
gpt4 key购买 nike

<分区>

为了计算两个文档之间的相似度,我创建了一个包含词频的特征向量。但是,对于下一步,我无法在“Cosine similarity”和“Hamming distance”之间做出决定。

我的问题:您有使用这些算法的经验吗?哪个给您带来更好的结果?

除此之外:您能告诉我如何在 PHP 中编写余弦相似性代码吗?对于汉明距离,我已经得到了代码:

function check ($terms1, $terms2) {
$counts1 = array_count_values($terms1);
$totalScore = 0;
foreach ($terms2 as $term) {
if (isset($counts1[$term])) $totalScore += $counts1[$term];
}
return $totalScore * 500 / (count($terms1) * count($terms2));
}

我不想使用任何其他算法。我只想在两者之间做出决定。

也许有人可以说说如何改进算法。如果过滤掉停用词或常用词,您会得到更好的结果吗?

我希望你能帮助我。提前致谢!

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com