gpt4 book ai didi

python - 两组标记之间的相似度得分

转载 作者:行者123 更新时间:2023-11-30 09:23:30 28 4
gpt4 key购买 nike

我检索到了一个人的一组网址。我想尝试将每个网址分类为与该人有关(他/她的 linkedin 个人资料或提及该人的博客或新闻文章)或与该人无关。

我正在尝试应用一种基本方法,对每个网页进行标记并与所有其他网页进行比较,以查看每个文档之间有多少相似的单词(不包括停用词),然后将最相似的网页作为正匹配。

我想知道是否有一种机器学习方法可以使我的任务更轻松、更准确。本质上,我想比较两个网页之间的网页内容(标记为单词),并根据其内容确定它们的相似程度的分数。

最佳答案

如果您熟悉 Python,这个 NLP 分类器应该会对您有很大帮助: http://www.nltk.org/api/nltk.classify.html#module-nltk.classify

对于无监督聚类,您可以使用以下命令: http://www.nltk.org/api/nltk.cluster.html#module-nltk.cluster

如果您只是寻找相似性分数,那么指标模块应该很有用: http://www.nltk.org/api/nltk.metrics.html#module-nltk.metrics

NLP-toolkit 已经给出了答案,只需浏览模块即可找到您想要的内容,而无需手动实现。

关于python - 两组标记之间的相似度得分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22946117/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com