python - 如果索引位于 3 个外部列表之一，如何通过条件计算 tfidf 向量的平均值？-6ren

python - 如果索引位于 3 个外部列表之一，如何通过条件计算 tfidf 向量的平均值？

转载作者：行者123 更新时间：2023-12-01 08:38:28

26

4

我试图通过索引位于 3 个列表之一中来实现分组 tfidf 向量(Pandas DataFrame 的行)并计算分组行的平均值。情况:

list_A = [1,2,3]
list_B = [4,5]
list_C = [6]

pandas.DataFrame:
id     word1     word2     word3
1      0.01      0.00      0.00 
2      0.00      0.01      0.01
3      0.01      0.01      0.00
4      0.01      0.01      0.01
5      0.01      0.00      0.01
6      0.00      0.01      0.01

我无法使用 pandas.DataFrame.groupby() 函数，现在我有点迷失了。

最佳答案

您可以通过使用三个列表进行索引并按其分组来设置具有唯一标识符的新列:

df.loc[list_A, "class"] = "A"
df.loc[list_B, "class"] = "B"
df.loc[list_C, "class"] = "C"
df
#     word1  word2  word3 class
# id                           
# 1    0.01   0.00   0.00     A
# 2    0.00   0.01   0.01     A
# 3    0.01   0.01   0.00     A
# 4    0.01   0.01   0.01     B
# 5    0.01   0.00   0.01     B
# 6    0.00   0.01   0.01     C

df.groupby("class").mean()
#           word1     word2     word3
# class                              
# A      0.006667  0.006667  0.003333
# B      0.010000  0.005000  0.010000
# C      0.000000  0.010000  0.010000

请注意，这假设 id 是数据帧的索引，并且列表包含索引中的值(就像您的示例中的情况一样)。

关于python - 如果索引位于 3 个外部列表之一，如何通过条件计算 tfidf 向量的平均值？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53598141/

26

4

0

文章推荐： random - linux/dev/urandom 前向预测

文章推荐： calculator - 如何在自定义 TI 程序中使用箭头键

文章推荐： sql-server - 触发器是否能够复制作为身份 ID 的主键？

文章推荐： sencha-touch - Ext.msg.alert 只渲染第一行

python - Sklearn tfidf 向量和 tfidf 向量数组之间的 cosine_similarity
我正在尝试获取文本与数组中包含的文本之间的余弦相似度。我一直在研究这段代码: import numpy as np from sklearn.feature_extraction.text impo
machine-learning - 应将什么作为链接函数的输入 - tfidf 矩阵或 tfidf 矩阵不同元素之间的相似性？
我有以下 python 笔记本，旨在根据文本之间的相似性对不同的摘要组进行聚类。我这里有两种方法:一种是在链接函数中使用 tfidf numpy 文档数组，第二种是查找不同文档的 tfidf 数组之间
python - 如何在测试集上应用 TFIDF
假设我有两个文本文件。文件 1 包含训练集，主要用于定义词汇表。文件 2 是用户输入的单词。 d1 = ( "Project 1 details on Machine learning", "Proj
python - 具有先前预处理数据的 TFIDF
我正在尝试依次使用多种信息检索技术。对于每一个，我希望以完全相同的方式对文本进行预处理。我的预处理文本以单词列表的形式提供。不幸的是 scikit-learns TfidfVectorizer 似乎只
python - TFIDF 向量器给出错误
我正在尝试使用 TFIDF 和 SVM 对某些文件进行文本分类。一次要选择 3 个单词的特征。我的数据文件已经采用以下格式:angel eyes has, each one for, on its o
python - tfidf 将测试数据拟合到训练数据后如何进行转换？
我正在使用以下代码: pipeline = Pipeline([('vect', TfidfVectorizer( ngram_range=(1,2),
python - TfIDf 矢量器权重
您好，我有一个词形还原文本，其格式如 lemma 所示。我想获得每个单词的 TfIdf 分数，这是我编写的函数: import numpy as np import pandas as pd from
python - TFIDF 计算困惑
我在网上找到了下面这段计算TFIDF的代码: https://github.com/timtrueman/tf-idf/blob/master/tf-idf.py 我在函数 def idf(word,
python - 大型数据集的 TFIDF
我有一个包含大约 800 万篇新闻文章的语料库，我需要将它们的 TFIDF 表示为稀疏矩阵。对于相对较少数量的样本，我已经能够使用 scikit-learn 做到这一点，但我相信它不能用于如此庞大的数
classification - TFIDF : tf implementation
我正在实现一个分类工具，并正在试验各种 TF 版本:两个对数(对数调用内部/外部的校正)、归一化、增强和对数平均。显然，由这些调制的分类器精度存在显着差异——高达 5%。然而，奇怪的是，我无法提前说出
java - 矩阵 TFIDF 的降维
我计算了 TFIdf(词频，逆文档频率)，我已经看到在这一步之后，有必要使用 LSI ，卡方检验等方法来减少我的矩阵的维数...，我不知道如何在 Java 中实现卡方检验以降低矩阵 TFIDF 的维
python - 如何使用已计算的 TFIDF 分数计算余弦相似度
我需要计算具有已计算的 TFIDF 分数的文档之间的余弦相似度。通常我会使用(例如)TFIDFVectorizer这将创建一个文档/术语矩阵，并计算 TFIDF 分数。我无法应用此方法，因为它将重新
python - 大型文档语料库上的 Sklearn TFIDF
在实习项目中，我必须对大量文件(~18000)执行 tfidf 分析。我正在尝试使用 sklearn 中的 TFIDF 矢量器，但我面临以下问题:如何避免一次将所有文件加载到内存中？根据我在其他帖子上
python LightGBM 文本分类与 Tfidf
我正在尝试引入 LightGBM 进行文本多分类。pandas 数据框中有 2 列，其中“类别”和“内容”设置如下。数据框: contents category
python - (文本分类)处理来自不同文档的相同单词 [TFIDF]
所以我正在创建一个 python 类来计算文档中每个单词的 tfidf 权重。现在我的数据集中有 50 个文档。在这些文档中，许多单词相交，因此具有多个相同的单词特征但具有不同的 tfidf 权重。所
vector - 转换为 TFIDF 值向量的相似文档在向量空间中看起来如何
这可能是一个奇怪的问题，但我忍不住想知道。如果我说有三个文档: d1 =“我叫斯特凡。” d2 =“我叫大卫。” d3 =“你好，你好吗？” 如果我将所有这 3 个文档转换为 TFIDF 值向量，在向
python - 将文本特征名称链接到它们的 tfidf 值
我正在使用 scikit-learn 从“词袋”文本(在单个词上标记化的文本)中提取文本特征。为此，我使用了 TfidfVectorizer还可以减少非常频繁出现的单词(即:“a”、“the”等)的权
python - 将 tfidf 矩阵打印到文件中
我想在文本文件中将此 tfidf 过程的结果打印为 (word, 2.333)。目前它首先打印所有单词，然后打印分数。我该怎么做？我还希望文件按 idf 值排序，以便将最重要的词放在最前面。 from
python - tfidf vectorizer 给出错误的结果
我有如下文件 1 NAME LASTNAME DOB CITY 2 NAME ADDRESS CITY 3 NAM
python - tfidf.transform() 函数没有返回正确的值
我正在尝试将 tfidf 向量化器拟合到某个文本语料库，然后使用相同的向量化器来查找新文本的 tfidf 值的总和。但是，总和值并不符合预期。下面是示例: text = ["I am new to p

首页

博学

6Ren·AI

商城

python - 如果索引位于 3 个外部列表之一，如何通过条件计算 tfidf 向量的平均值？