gpt4 book ai didi

python - 我应该如何理解 python-sklearn 中的 .transform 方法?

转载 作者:太空宇宙 更新时间:2023-11-03 13:35:03 25 4
gpt4 key购买 nike

简介

我正在学习教程,我对 Python 和机器学习还很陌生。 (所以,如果我看起来像个菜鸟,我深表歉意……那是因为我确实是)。该教程可在此处找到:Data Science Python Tutorial

有问题的代码行

我看到一个 bow_transformer 变量已经在早期创建了:

bow_transformer = CountVectorizer(analyzer=split_into_lemmas).fit(messages['message'])

我对“矢量化”的理解在这里不是很清楚……我们是说语料库中每条 SMS 消息的每个单词都在它自己的行中吗?

然后,这个变量被转换(我假设这里的 transform 是为了创建某种单词的(x,y)表示,以便机器可以读取并计算它们的出现次数。:

bow4 = bow_transformer.transform(messages['message'])
messages_bow = bow_transformer.transform(messages['message'])

到目前为止,我通常都很困惑……而且我认为我已经在脑海中合理化了一切(如果我在上面犯了一些逻辑错误,请纠正我,这将有助于我理解机器学习+ Python 非常好。

现在,主要问题

我的困惑被以下 block 放大了:

tfidf_transformer = TfidfTransformer().fit(messages_bow)
tfidf4 = tfidf_transformer.transform(bow4)

我的解释

messages_bow 被弓形变换(不管那是什么意思),然后 messages_bow 被安装到 tfidfTransformer 上,这被分配了 tfidf_transformer 变量。这个新创建的 tfidf_transformer 变量现在看起来不再像一个变量了,因为下一行是使用上述过程/对象创建一个新变量 (tfidf4)?

结论

我希望你们能理解我的困惑——我不知道如何搜索我的问题,因为我根本不知道我不知道什么。我的问题尖叫着“Noobie”,我希望这不会阻止任何人认真对待我的问题。

最佳答案

向量化器将语料库(例如文本文档)转换为向量 Vector Space Model .有很多方法可以做到这一点,结果将取决于所使用的技术。矢量化器是必要的,因为模型使用数字而不是文字。特别是,CountVectorizer 的实现将生成一个包含每个单词出现次数的数组。在这种特殊情况下,CountVectorizer 用作生成 TF-IDF(词频 - 逆文档频率)表示的先验步骤,这是确定文档中单词“重要性”的最流行技术之一。该模型的假设是出现次数多的词更可能代表该文档(词频),但是不应考虑整个语料库之间的“常用词”(反向文档频率),例如,连接符.该技术广泛应用于信息检索领域。

在向量空间表示中获得语料库后,您就可以开始使用该表示作为机器学习技术的输入。

特别是 transform 方法,它将返回将经过训练(拟合)的模型应用于作为参数传递的元素的结果。换句话说,转换将输入“翻译”为“模型表示语言”。

让我们用一个例子来阐明这一点:

假设我们有3个文档(内容没有意义,我知道):

  • 文件 1:这是文件一,脾气暴躁。
  • 文件 2:这是文件二,令人难过。
  • 文件 3:这是文件三,很高兴。

CountVectorizer 将在调用 fit() 时学习词汇表。


[this, is, document, one, grumpy, 2, sad, three, happy]

另一方面,当对语料库调用 transform 时,它会使用词汇表生成这个矩阵:


[1, 2, 1, 1, 1, 0, 0, 0, 0]
(1) [1, 2, 1, 0, 0, 1, 1, 0, 0]
[1, 2, 1, 0, 0, 0, 0, 1, 1]

其中包含每个文档的单词出现次数。这里,值 2 对应于在每个文档中重复两次的单词“is”。此外,值“0”表示文档中不存在该词。

现在,我们可以使用这个矩阵通过 fit() 训练 TF-IDF 模型,它将生成以下向量:


(2) [3, 6, 3, 1, 1, 1, 1, 1, 1]

其中包含每个单词的全局出现。然后,当您将变换应用于 (1) 时,tf-idf 模型将使用在拟合阶段 (2) 中生成的向量来创建 tf-idf 矩阵:


[0.33, 0.33, 0.33, 1, 1, 0, 0, 0, 0]
[0.33, 0.33, 0.33, 0, 0, 1, 1, 0, 0]
[0.33, 0.33, 0.33, 0, 0, 0, 0, 1, 1]

其中较低的数字表示更常见的单词。请注意“独特”的词有更高的数字。后面的矩阵是您将用来训练 ML 模型的矩阵。

总而言之,例如,如果您想使用聚类技术(例如 KMeans)对一堆文档进行分类,则该过程将是:

  1. 转换文档以生成 VSM 表示。拟合一个 TF-IDF 模型,该模型将服务于识别每个文档中哪些术语最重要的提议。

  2. 拟合 KMeans 模型,该模型将生成理想情况下包含相关文档的集群。为此,模型将使用上一步生成的结果,通过识别它们之间的共享词来建立文档关系。

所有这些解释都是在自然语言处理的背景下进行的,如果你想使用 ML 来识别图像,你当然不会使用 tf-idf。

希望对您有所帮助!

关于python - 我应该如何理解 python-sklearn 中的 .transform 方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41412532/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com