gpt4 book ai didi

machine-learning - Scikit - 如何使用 sklearn 获取相似单词的单个术语

转载 作者:行者123 更新时间:2023-11-30 09:01:25 25 4
gpt4 key购买 nike

我是文本分析和 scikit-learn 的新手。我正在尝试使用 sklearn 的 TfidfVectorizer 类对推文进行矢量化。当我在对推文进行向量化后使用“get_feature_names()”列出术语时,我看到类似的单词,例如“goal”、“gooooal”或“goaaaaaal<”/em>' 作为不同的术语。

问题是,如何使用 sklearn 特征提取技术(或任何其他技术)为如此相似但不同的单词制定单个术语“目标”,以获得更好的结果?

最佳答案

简而言之 - 你不能。这是一个非常复杂的问题,涉及到整个语言的理解。想一想——你能准确定义“相似但不同”是什么意思吗?如果你不能,计算机也将不能。你能做什么?

  1. 您可以提出简单的预处理规则,例如“删除任何重复的字母”,这将解决“目标”问题。 (这不应导致任何进一步的问题)
  2. 您可以使用现有的同义词数据库(例如 wordnet)将相同的含义“合并”到相同的标记(这可能会导致误报 - 由于缺乏上下文分析,您可能会“合并”不同含义的单词)
  3. 您可以构建一些语言模型,并使用它将数据嵌入到低维空间中,迫使您的模型合并相似的含义(使用众所周知的启发式“在相似上下文中出现的单词具有相似的含义”)。其中一种技术是 Latent Semantic Analysis但显然还有更多可能。

关于machine-learning - Scikit - 如何使用 sklearn 获取相似单词的单个术语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33459134/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com