python - Sklearn Pipeline : How to build for kmeans, 聚类文本？-6ren

python - Sklearn Pipeline : How to build for kmeans, 聚类文本？

转载作者：太空宇宙更新时间：2023-11-03 11:29:05

28

4

我有如图所示的文字:

 list1 = ["My name is xyz", "My name is pqr", "I work in abc"]

以上将是使用 kmeans 对文本进行聚类的训练集。

list2 = ["My name is xyz", "I work in abc"]

以上是我的测试集

我已经构建了一个矢量化器和模型，如下所示:

vectorizer = TfidfVectorizer(min_df = 0, max_df=0.5, stop_words = "english", charset_error = "ignore", ngram_range = (1,3))
vectorized = vectorizer.fit_transform(list1)
km=KMeans(n_clusters=2, init='k-means++', n_init=10, max_iter=1000, tol=0.0001, precompute_distances=True, verbose=0, random_state=None, copy_x=True, n_jobs=1)
km.fit(vectorized)

如果我尝试为我的“list2”测试集预测集群:

km.predict(list2)

我收到以下错误:

ValueError: Incorrect number of features. Got 2 features, expected 5

我被告知使用Pipeline 来解决这个问题。所以我写了下面的代码:

pipe = Pipeline([('vect', vectorizer), ('vectorized', vectorized), ('kmeans',km )])

但是我得到了错误:

TypeError                                 Traceback (most recent call last)
/mnt/folder/Text_Mining/<ipython-input-14-321cabc3bf35> in <module>()
----> 1 pipe = Pipeline([('vect', vectorizer), ('vectorized', vectorized), ('kmeans',km )])
/usr/local/lib/python2.7/dist-packages/scikit_learn-0.13-py2.7-linux-x86_64.egg/sklearn/pipeline.pyc in __init__(self, steps)
     87                 raise TypeError("All intermediate steps a the chain should "
     88                                 "be transforms and implement fit and transform"
---> 89                                 "'%s' (type %s) doesn't)" % (t, type(t)))
     90
     91         if not hasattr(estimator, "fit"):
TypeError: All intermediate steps a the chain should be transforms and implement fit and transform'  (0, 2)     1.0
(1, 4)        0.57735026919
(1, 3)        0.57735026919
(1, 1)        0.57735026919
(2, 0)        1.0' (type <class 'scipy.sparse.csr.csr_matrix'>) doesn't)

我认为 vectorized 的输出可能没有实现拟合和变换，但在这种特殊情况下我该怎么做呢？我是机器学习的新手。另外，如何从 kmeans 模型中获取标签？当我运行 kmeans 时，我可以使用 km.labels_ 访问集群标签。如何在 Pipeline 中做类似的事情？

最佳答案

你需要做的是使用 list1 训练一个 vectorizer，然后使用相同的 vectorizer，transform list1 和 list2。这将解决问题。演示:

>>> list1 = ["My name is xyz", "My name is pqr", "I work in abc"]
>>> list2 = ["My name is xyz", "I work in abc"]
>>> vectorizer = TfidfVectorizer(min_df = 0, max_df=0.5, stop_words = "english", charset_error = "ignore", ngram_range = (1,3))
>>> vec=vectorizer.fit(list1)   # train vec using list1
>>> vectorized = vec.transform(list1)   # transform list1 using vec
>>> km=KMeans(n_clusters=2, init='k-means++', n_init=10, max_iter=1000, tol=0.0001, precompute_distances=True, verbose=0, random_state=None, cpy_x=True, n_jobs=1)
>>> km.fit(vectorized)
>>> list2Vec=vec.transform(list2)  # transform list2 using vec
>>> km.predict(list2Vec)
array([0, 0], dtype=int32)

关于python - Sklearn Pipeline : How to build for kmeans, 聚类文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26903091/

28

4

0

文章推荐： android - 如何获取按钮的高度和宽度

文章推荐： mysql - 错误代码 : 1292. 截断不正确的 DOUBLE 值

文章推荐： mysql - 设计 XtraDB 集群

文章推荐： java - if(pause == null) { 不起作用

jfrog-pipelines - JFrog Pipelines 中是否有一种方法可以自动拒绝先前运行的仍在等待批准的步骤？
例如，如果运行 1 正在等待批准并触发运行 2，则应拒绝运行 1。最佳答案 “待批准”状态具体来自 Approval Gates功能。虽然您不能在触发新运行时明确拒绝“待批准”步骤，但您可以通过在
azure-pipelines - Azure Pipelines - 管道工件和构建工件之间有什么区别？
在 Azure DevOps Pipelines 中，似乎有两种我无法区分的概念和处理“工件”的方法。管道工件 https://learn.microsoft.com/en-us/azure/dev
azure-pipelines - Azure Pipelines - 查看上一次运行的参数
不确定是否有办法做到这一点，但我想查看之前运行的 yaml 管道中的参数，以便查看管道运行时输入或选择的内容。那可能吗？我发现的唯一解决方法是根据每个参数添加标签。最佳答案您可以从 Build 查
pipeline - 如何防止 Bitbucket Pipelines 中的步骤失败？
我正在运行我所有的测试用例，其中一些用例有时会失败，管道检测到它并使步骤和构建失败。这会阻止要执行的下一步(压缩报告文件夹)。我想将该 zip 文件作为电子邮件附件发送。这是我的 bitbucket
pipeline - "rerun in upstream in pipeline"是什么意思？
我正在数据工厂中定义管道，我纠正了一些错误。第一个事件是调用 usql 脚本进行一些聚合，我更改了脚本很多时间，但错误仍然是: [{"errorId":"E_CSC_USER_SYNTAXERROR"
azure-pipelines-release-pipeline - 使用kubeconfig内联的Helm命令
我正在尝试使用运行命令VSTS扩展名对VSTS版本定义执行helm命令，但问题是它无法在我配置的自定义生成代理上找到kubeconfig文件。我认为这是因为定义的构建步骤在单独的过程中运行。当我运行
python - sklearn.pipeline.Pipeline 到底是什么？
我无法弄清楚 sklearn.pipeline.Pipeline 是如何工作的。 doc 中有一些解释.例如它们是什么意思: Pipeline of transforms with a final e
Azure管道: How to block pipeline A if pipeline B is running
我在 azure 管道中有两个管道(也称为“构建定义”)，一个正在执行系统测试，一个正在执行性能测试。两者都使用相同的测试环境。我必须确保系统测试管道运行时不会触发性能管道，反之亦然。到目前为止我已
bitbucket-pipelines - Bitbucket Pipelines SSH 凭据不起作用
我遵循了这个指令 https://confluence.atlassian.com/bitbucket/use-ssh-keys-in-bitbucket-pipelines-847452940.ht
Azure Pipeline 使用 YAML 触发 Pipeline
当使用 YAML 完成另一个管道时尝试触发 Azure 管道。有documentation表明您可以添加管道资源: resources: # types: pipelines | builds |
azure-pipelines - 如何在 Azure Pipelines 上正确进行文件转换
我正在尝试根据我发布到的每个环境对我的 Web.config 进行文件转换。大多数情况下，一切看起来都很好，直到我在发布管道上部署到我的 UAT 阶段。在我的构建管道中，这是我正在使用的 YAML
jenkins-pipeline - 在 Jenkins Pipelines 中设置阶段状态
脚本化管道中是否有任何方法可以将某个阶段标记为不稳定，但仅将该阶段显示为不稳定，而不在输出中将每个阶段标记为不稳定？我可以做这样的事情: node() { stage("Stage1") {
azure-pipelines - 在 Azure Pipelines 中复制和重命名配置文件
我有针对特定环境(dev、qa、uat)的特定配置文件和另一个根 web.config。部署的代码读取 web.config。所以我一直在尝试复制内容或重命名 Azure Pipelines 中的文件
jenkins - 如何将 Jenkins Pipeline 转换为多分支 Pipeline？
我的 Jenkins 中有很多 Pipeline 项目。我想将它们转换为多分支管道。是否可以不删除管道并创建新的多分支管道？怎么办？最佳答案假设您的管道位于 Jenkinsfile 中，则无需进行
azure-pipelines - 在可能从模板扩展的 azure pipelines yml 中使用变量？
我们正在使用扩展功能以安全的方式在我们的管道中重用模板。为了更轻松地定义模板的参数，我想使用变量，但我觉得这是不可能的。但由于我在官方文档中找不到答案，所以我在这一轮提问。我的 yml 文件如下所
jenkins-pipeline - 如何在 Jenkins Pipeline 工作中获取 UID
如何访问UID Jenkins 管道工作中的变量？我收到了 null什么时候: pipeline { agent any environment { def user
azure-pipelines - 在 Azure Pipelines 中，如何在其他任务运行时执行后台任务？
我正在摆弄管道以尝试减少整体运行时间。我想做的一件事是执行 docker pull ...在开始时，以便以后，当我真正需要它时，它已经为我准备好了。我想将它作为后台工作解雇，并让它在该任务结束后继续存
bitbucket-pipelines - 如何在 Bitbucket Pipeline 上编写多行 if block ？
From here我了解到 Bitbucket Pipeline 支持 ifs 语句。如何在 if 语句中执行多行块？这不计算: script: - if [ $BITBUCK
jenkins-pipeline - 无法将图像从 Jenkins Pipeline 推送到 GCR
我在运行 Jenkins 服务器(在 docker 容器内)的谷歌云中运行虚拟机。我正在尝试为我的应用程序构建一个 Docker 镜像，并使用 Jenkins 管道将其推送到 Google Conta
azure-pipelines - azure-pipelines.yml 中的错误意外值 'steps'
在构建和部署 docker image.Getting Unexpected value 'Steps' 在第 27 行之前，我试图将视频文件从 GPM 复制到 app/dist/asset/imag

首页

博学

6Ren·AI

商城

python - Sklearn Pipeline : How to build for kmeans, 聚类文本？