python - 如何分析sklearn-pipeline的中间步骤？-6ren

python - 如何分析sklearn-pipeline的中间步骤？

转载作者：行者123 更新时间：2023-11-30 09:16:40

25

4

我正在使用 sklearn 将文本分类。我正在使用 CountVectorizer 和 TFIDFTransformer 创建稀疏矩阵。

我正在自定义 tokenize_and_stem 中对字符串执行几个预处理步骤CountVectorizer 分词器中使用的函数。

from sklearn.pipeline import Pipeline
from sklearn.svm import LinearSVC
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

SVM = Pipeline([('vect', CountVectorizer(max_features=100000,\
                                         ngram_range= (1, 2),stop_words='english',tokenizer=tokenize_and_stem)),\
                         ('tfidf', TfidfTransformer(use_idf= True)),\
                         ('clf-svm', LinearSVC(C=1)),])

我的问题是，是否有任何简单的方法可以查看/存储 Pipeline 步骤 1/2 的输出来分析哪种数组将进入 svm？

最佳答案

您可以通过类似的方式获得中间步骤输出。

基于source code :

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline

pipeline = Pipeline([('vect', TfidfVectorizer(ngram_range= (1, 2),stop_words='english')),\
                     ('clf-svm', LinearSVC(C=1)),])
X= ["I want to test this document", "let us see how it works", "I am okay and you ?"]

pipeline.fit(X,[0,1,1])

print(pipeline.named_steps['vect'].get_feature_names())

['document', 'let', 'let works', 'okay', 'test', 'test document', 'want', 'want test', 'works']    

#Here is where you can get the output of intermediate steps
Xt = X

for name, transform in pipeline.steps[:-1]:
    if transform is not None:
        Xt = transform.transform(Xt)
        
print(Xt)



  (0, 7)    0.4472135954999579
  (0, 6)    0.4472135954999579
  (0, 5)    0.4472135954999579
  (0, 4)    0.4472135954999579
  (0, 0)    0.4472135954999579
  (1, 8)    0.5773502691896257
  (1, 2)    0.5773502691896257
  (1, 1)    0.5773502691896257
  (2, 3)    1.0

关于python - 如何分析sklearn-pipeline的中间步骤？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54332654/

25

4

0

文章推荐： java - hashmap 如何保证再次使用的 key 相同 `index`？

文章推荐： javascript - 如何在其轴的最末端创建一个带有元素的圆？

文章推荐： java - 不会继续在 ACTION_DOWN 上执行语句

python - 了解fit_generator(steps_per_epoch)、validation_steps、evaluate_generator(步骤)和predict_generator(步骤)
我是在项目中使用 keras 的新手。我一直在我的模型中使用generator。我真的很困惑我应该输入什么值 1) In fit_generator : steps_per_epoch & vali
算法在一个组的成员内完成许多事务至少没有。步骤
假设我们有如下情况: A has to give $10 to B. B has to give $20 to C. C has to give $10 to D. 现在这种情况可以简化为: A lo
excel - 相对引用 - 步骤
我正在尝试对特定列(在工作表“OA”中)进行相对引用，我需要在 110 的步骤中检索新工作表中的单元格内容例如， =OA!$AB217 =OA!$AB327 =OA!$AB437 与其在每个单元格中
修复启动缓慢的 PowerShell 步骤
我的 PowerShell 控制台启动时间很慢(总是等待超过 5 秒)，并且希望获得有关故障排除步骤的建议，以找出瓶颈可能在哪里？我已经阅读了关于运行脚本的内容，-NoProfile防止模块等加载很
NativeScript slider 步骤
我在 NativeScript 应用程序中使用 slider 小部件，我想知道是否有步骤属性。在我的例子中，小部件代表金钱，我希望以 5 美元的增量滑动。我查看了文档，但找不到任何对这种情况有帮助的
NativeScript slider 步骤
我在 NativeScript 应用程序中使用 slider 小部件，我想知道是否有步骤属性。在我的例子中，小部件代表金钱，我希望以 5 美元的增量滑动。我查看了文档，但找不到任何对这种情况有帮助的
jquery - 如何减少 "each"步骤？
这是我的code : &n
java - 重载方法调用的参数匹配期间的详细过程(步骤)
为什么 (2) c.ERR(模棱两可)？第一个方法参数 - char ('a') 被扩展为 float => 匹配。如果找到匹配项，是否无需继续执行第 2 步(装箱/拆箱)或第 3 步(尝试可变参数
C# .net For() 步骤？
我有一个函数，它处理一个包含 6100 个列表项的列表。当列表只有 300 个项目时，该代码可以正常工作。但是立即与 6100 崩溃。有没有一种方法可以遍历这 6100 个项目，一次说 30 个，然后
PHP网站安装程序制作的原理、步骤、注意事项和示例代码
1.制作PHP安装程序的原理其实PHP程序的安装原理无非就是将数据库结构和内容导入到相应的数据库中，从这个过程中重新配置连接数据库的参数和文件，为了保证不被别人恶意使用安装文件，当安装
angular - 动态对话框中的 PrimeNG 步骤
我创建了一个类似于 primeNG page 的步骤组件我想把他放在一个 dynamic dialog 里面但在应用它之后，“第 1 步”和“第 2 步”不会呈现。查看代码，我发现关键部分是我们打开
math - 误解 MixColumns 步骤
我在理解描述的 MixColumns 步骤时遇到问题 here . 我知道扩散，这一切都是有道理的，因为它指出每列都被视为多项式并乘以 GF(2^8) 的模。但是..乘以GF(2 ^ 8)。尽管域仍
build - 在构建失败条件下需要跳过 TeamCity 步骤
根据我对 TeamCity 工作原理的观察，我注意到在所有步骤执行完毕后评估构建失败条件。这很烦人，因为如果满足任何构建失败条件，我不能有一个不会执行的步骤。我不是指常见的构建失败条件，例如“至少一
Jenkins CopyArtifact 步骤 - 无法找到工件复制的项目
基于这篇试图在我的环境中测试管道代码的帖子。但它给出了以下错误消息。如何修复他的管道代码？ ERROR: Unable to find project for artifact copy: test
sql - 用于混淆/清除生产数据的简单工具/步骤
我参与了一个项目，需要向我的一位同事提供生产数据的子集（日期范围），以进行故障排除。我想将经过清理的生产数据子集插入新的数据库表中我的同事可以访问。请提出实现此目标的最佳方法。最佳答案最简单的方法
cucumber - 如何跳过 cucumber 步骤？
我有这样的场景: 鉴于我去这个页面当我输入 cucumber 时然后我点击然后我应该看到文字我不应该看到这条线如果我运行这个场景，它将执行所有 5 个步骤。但是我想跳过第4步(然后我应该看到
matlab - 避免情节/步骤/...输出
是否有任何功能可以避免 m 文件的绘图输出？我的意思是我在文件的开头放置了一个函数(如 clc)，然后所有绘图函数都被阻止。最佳答案您可以使用自己的(嵌套在您的函数内或同一目录中)重载内置绘图函
cucumber - 是否可以在多行上写一个小 cucumber 步骤？
我是小 cucumber 语言的新手，这在我看来是非常基本的问题，但我找不到答案。我知道可以在 Gherking 中编写多行步骤参数，如下所示: Given a blog post named "R
cucumber - 失败后继续运行 cucumber 步骤
即使其中一个步骤失败，有没有办法继续执行 Cucumber Steps。在我当前的设置中，当一个步骤失败时， cucumber 会跳过剩余的步骤......我想知道是否有某种方法可以设置 cucumb
optimization - 如何计算开始-步骤-停止编码方案的最佳参数？
start-step-stop 码是一种数据压缩技术，用于压缩相对较小的数字。该代码的工作原理如下:它具有三个参数，start、step 和 stop。 Start 确定用于计算前几个数字的位数。

首页

博学

6Ren·AI

商城

python - 如何分析sklearn-pipeline的中间步骤？