python - 由 TF-IDF Vectorizer 函数构建的词云-6ren

python - 由 TF-IDF Vectorizer 函数构建的词云

转载作者：行者123 更新时间：2023-12-04 11:47:26

26

4

我有一个名为 corpus 的列表我正在尝试使用 TF-IDF，使用 sklearn内置功能。该列表有 5 个项目。这些项目中的每一个都来自文本文件。
我为这个例子生成了一个名为 corpus 的玩具列表。

corpus = ['Hi what are you accepting here do you accept me',
'What are you thinking about getting today',
'Give me your password to get accepted into this school',
'The man went to the tree to get his sword back',
'go away to a far away place in a foreign land']

vectorizer = TfidfVectorizer(stop_words='english')
vecs = vectorizer.fit_transform(corpus)
feature_names = vectorizer.get_feature_names()
dense = vecs.todense()
lst1 = dense.tolist()
df = pd.DataFrame(lst1, columns=feature_names)
df

使用上面的代码，我能够获得一个包含 5 行(对于列表中的每个项目)和 n 列的数据框，其中包含该语料库中每个术语的 tf-idf。

下一步，我想用最大权重的语料库中的 5 个项目构建具有最大 tf-idf 术语的词云。

我尝试了以下方法:

x = vectorizer.vocabulary_
Cloud = WordCloud(background_color="white", max_words=50).generate_from_frequencies(x)

这显然行不通。字典是带有索引的单词列表，而不是单词评分。

因此，我需要一个字典来为整个语料库中的每个单词分配 TF-IDF 分数。然后，生成的词云中得分最高的词作为最大的词。

最佳答案

您快到了。您需要转置以获取每个术语的频率而不是每个文档的术语频率，然后求和下摆，然后将该系列直接传递给您的 wordcloud

df.T.sum(axis=1)

accept       0.577350
accepted     0.577350
accepting    0.577350
away         0.707107
far          0.353553
foreign      0.353553
getting      0.577350
hi           0.577350
land         0.353553
man          0.500000
password     0.577350
place        0.353553
school       0.577350
sword        0.500000
thinking     0.577350
today        0.577350
tree         0.500000
went         0.500000

Cloud = WordCloud(background_color="white", max_words=50).generate_from_frequencies(df.T.sum(axis=1))

关于python - 由 TF-IDF Vectorizer 函数构建的词云，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61916096/

26

4

0

文章推荐： java - Mono 和 Mono.empty() 有何不同

文章推荐： r - 在 R 中标记唯一值

cloud - 云、网格和集群有什么区别？
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
Python，云 - 具有调度功能的在线网页抓取工具
我计划使用 python 开发一个 Web/云应用程序，它执行以下操作， 1.上传Perl/Python抓取脚本并执行。 2. 上传脚本以按计划运行。 3. 使用不同的输入参数运行同一脚本的多个实例。
Android 云 - 备份管理器与驱动器
我正在开发一个应用程序，我想实现一个功能，可以在相同的用户设备之间共享，比方说，收藏夹、书签等。所以，我想实现类似 iCloud 的东西。我想到了 2 个可能的想法:Backup Manager 和
Java 云 API
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
r - 创建词组而不是R中的单个词的 "word"云
我正在尝试从一系列短语中使一个单词云成为一个词云，而不是从单个单词中重复很多短语。我的数据看起来像这样，数据框的一列是短语列表。 df$names <- c("John", "John", "Jose
azure - 预配和配置 - Azure 云
对于配置AWS服务(EC2/R53/VPC/S3/..)，Terraform等技术在执行回滚、错误处理等方面的方法不可靠。 AWS CloudFormation 模板解决了这些问题。 CloudFor
Azure 云 shell 错误
我无法使用我的 Azure 帐户执行任何操作，例如创建服务器或数据库或任何操作。看起来这一切都围绕着我无法创建的资源组>我收到此错误: 这特别困难，因为我什至无法使用云外壳，因为我得到了这个:请求 C
websocket - 云/托管推送系统可以使用socket.io作为客户端吗？
是否有在客户端使用 socket.io 的云/托管推送系统？据我所知，没有一个系统使用 socket.io AFAIK: http://beaconpush.com/ http://pusher.co
RStudio 本地 + R 云
有没有办法在我的计算机上本地运行 RStudio，但使用运行 R 作为引擎的远程计算机而不是本地 R 安装？需要明确的是，我知道可以将 RStudio 服务器与 Web GUI 一起使用，但我问的是
java - 如何将视频直播发送到 azure 云？
我正在寻找在这种情况下可以使用的合适服务: 在视频模式下打开相机并将其流式传输到 azure 云。并从另一方聆听(也包括客户)。我读到了有关 Azure 媒体服务的信息。但根据this我知道客户
java - 将应用程序部署到 Google 云
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicate: Google App Engine, getting started 如何将 Java 应用程序部署到 Google
java - 控制台应用程序的替代(云)部署选项
我有一个用 Java 7 编写的相当大的控制台应用程序，它管理大量的订单处理。该应用程序使用大量订单 Web 服务、与数据库交互并将数据插入 ERP 系统。该应用程序的要求没有指定用户交互，因此在项
azure - 是什么让项目适合 Azure/云？
我已经阅读过有关 Windows Azure 的内容，但为了深入了解这项技术，我(显然)需要使用它。我有一个小型 ASP.NET 网站，流量很少，我认为在 Azure 上托管该网站会节省我的钱。除此之
android - 将数据保存到 Parse 云
我的 Activity 中有 3 个编辑文本(姓名、手机号码、职业)和一个按钮(保存)。每次用户单击按钮时，我都想将这三个数据保存到 Parse-cloud。然后新 Activity 在 imagev
json - 传感器数据未上传至 artik 云
我正在尝试通过node.js 将传感器数据发送到artik cloud。 (使用网络套接字和串行端口)。但它发送空。有人知道原因吗？我刚刚复制了教程中的代码，因此没有语法错误。 var webSock
Docker 集线器与 Docker 云
我对 docker hub 和 docker cloud 有一点困惑。我有需要安装在客户端服务器中并运行容器的 docker 镜像。我相信这可以使用 docker hub 来完成，它允许在我的私有(p
这个华夏文明发源地，不仅有矿，还有“云”
晋城，华夏文化发祥地之一。两万年前留下高都遗址、塔水河、下川等人类遗址，女娲补天、愚公移山等神话传说，如今在云上有了崭新的魅力。 9月3日，阿里云数字中国行•晋城峰会期间，晋城市人民政府公布了
airflow - 云 Composer Airflow 插件使用
我刚开始使用 Airflow 插件，有点困惑。我在 GCP (composer-1.13.4-airflow-1.10.12) 上使用 Cloud Composer 作为托管服务运行它我按照文档编
分布式环境(云)中的 PHP XDebug
据我所知，PHP 分析工具 XDebug 将其结果保存到文件中。然而，当应用程序运行在云分布式环境中时，处理此类文件是很困难的。处理这种情况的最佳做法是什么？ XDebug 中是否有任何方法(最好是可
Azure 云 Web 服务、存储选项
我们正在将 PHP 网站迁移到 Azure 云 Web 服务(Web 角色)。目前，该网站通过驱动器盘符访问将用户提交的图像文件保存到文件系统。然后通过 URL 提供这些图像，例如content.e

首页

博学

6Ren·AI

商城

python - 由 TF-IDF Vectorizer 函数构建的词云