python - 在 panda 数据框中用更好的替代方案替换 for 循环以进行相似性测量-6ren

python - 在 panda 数据框中用更好的替代方案替换 for 循环以进行相似性测量

转载作者：行者123 更新时间：2023-12-01 06:26:56

24

4

我正在创建一个函数，该函数将计算数据集中每个记录(MxK 维度)与另一个数据集(NxK 维度)中记录的余弦相似度，其中 N 远小于 M。

当我在一个小数据集(例如“iris”数据集)上测试下面的代码时，它可以很好地完成工作。我担心当我有更大的数据集(100K 条记录和 100 多个变量)时它可能会很困难。

我知道 for 循环对于这种情况是不可取的，在这种情况下我有两个 for 循环。我想知道是否有人可以提出改进此代码的方法。

import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

def similarity_calculation(seed_data, pool_data):
    # Create an empty dataframe to store the similarity scores
    similarity_matrix = pd.DataFrame()
    for indexi, rowi in pool_data.iterrows():
        # Create an array to score similarity score for each record in pool data
        similarity_score_array = []
        for indexj, rowj in seed_data.iterrows():
            # Fetch a single record from pool dataset
            pool = rowi.values.reshape(1, -1)
            # Fetch a single record from seed dataset
            seed = rowj.values.reshape(1, -1)
            # Measure similarity score between the two records
            similarity_score = (cosine_similarity(pool, seed))[0][0]
            similarity_score_array.append(similarity_score)
        # Append the similarity score array as a new record to the similarity matrix
        similarity_matrix = similarity_matrix.append(pd.Series(similarity_score_array), ignore_index=True)

编辑1:示例数据 iris dataset使用方法如下

iris_data = pd.read_csv("iris_data.csv", header=0)
# Split the data into seeds and pool sets, excluding the species details
seed_set = iris_data.iloc[:10, :4]
pool_set = iris_data.iloc[10:, :4]

预期结果是

我的新紧凑代码(带有一个 for 循环)如下

def similarity_calculation_compact(seed_data, pool_data):
    Array1 = pool_data.values
    Array2 = seed_data.values
    scores = []
    for i in range(Array1.shape[0]):
        scores.append(np.mean(cosine_similarity(Array1[None, i, :], Array2)))
    final_data = pool_data.copy()
    final_data['mean_similarity_score'] = scores
    final_data = final_data.sort_values(by='mean_similarity_score', ascending=False)
    return(final_data)

我得到的输出是

我期待相同的结果，因为这两个函数都应该从与种子数据最相似(就平均余弦相似度而言)的池数据中获取记录。

最佳答案

不需要 for 循环，因为 cosine_similarity 将两个形状数组 (n_samples_X, n_features) 和 (n_samples_Y, n_features) 作为输入 并通过计算每对两个输入数组之间的余弦相似度来返回形状为 (n_samples_X, n_samples_Y) 的数组。

import numpy as np
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity

iris_data = pd.read_csv("iris.csv", header=0)

seed_set = iris_data.iloc[:10, :4]
pool_set = iris_data.iloc[10:, :4]

np.mean(cosine_similarity(pool_set, seed_set), axis=1)

结果(排序后):

array([0.99952255, 0.99947777, 0.99947545, 0.99946886, 0.99946596, ...])

关于python - 在 panda 数据框中用更好的替代方案替换 for 循环以进行相似性测量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60088795/

24

4

0

文章推荐： python - 如何避免 tkinter GUI 卡住？

文章推荐： angularjs - 在指令中使用 controllerAs 语法访问父方法

文章推荐： java - 任何工具都可以帮助将字段重构为 get/set 方法对

文章推荐： asp.net - 更改 ASP.NET SPA 模板中的 ASP.NET 标识代码的原因？

c++ - 在C++中用<<声明一个int
有人可以向我解释该声明在C++中的含义吗？我从未见过这样的声明，只是对它的含义和作用感到困惑: int ix((dx > 0) - (dx > 1)); 最佳答案您可以在括号或花括号中使用初始化程序
php - 在 while 中用 If 语句排序
我有一个带有单词的mysql数据库。我用 while 语句打印所有单词。所以我觉得: 马铃薯番茄生菜一切正常，但我想按长度对单词进行排序。我试过: if(strlen($go['words']) =
windows - Windows 中用 FOR 遍历路径变量
我忠实的路径遍历方法不再有效——它将空格视为分隔符。好久没做批处理编程了。使用 FOR 循环时，唯一允许使用分隔符的是 FOR/F 选项。我不想创建一个包含路径的临时文件，希望做如下的事情: C:
C# 中用 Sqlparameter 的两种用法
新建一个表： ? 1
在 Lua 中用 LPeg 解析出多行
我有一些带有多行块的文本文件，例如 2011/01/01 13:13:13,, Some Certain Text,=, [ certain text [
vim - 在 VIM 中用 # 居中和填充多个空间
我想在 Vim 中文件的不同部分之间进行一些很好的分离: 我想用#'s 填充一行，然后在中间写上我的标题: ############################# 居中标题############
string - 在 Clojure 中用\* 替换 *
我该如何逃生 "*"至 "\*"在clojure？似乎无法让它工作: (s/replace "A*B" #"*" "*")生产 "A*B" (当然) (s/replace "A*B" #"*" "\*
c - c 中用 "char *"定义的变量是指针还是char类型的变量？
这周我一直在努力更熟悉 C。我一直在阅读C Primer Plus (5th Edition) 但是我仍然在使用变量和指针时遇到了一些麻烦。这是我用来测试的脚本: int main (int arg
dart - Dart 中用 new 操作符初始化和用字面量初始化的区别
在 Dart 中，初始化 List 有什么区别？使用 new 运算符并使用文字对其进行初始化？情况1: List args = new List(2); args[0] = 1; args[1] =
在 R 中用 NA 替换值
我有一个字符向量，如下所示: "Internet" "Internet" "-1" "-5" "Internet" "Internet" 我想替换所有负数值的值(-1、-5 等
在 R 中用 NA 删除列值
我有一个名为 gen 的数据框，如下所示 A B C D E 1 NA 4.35 35.3 3.36 4.8
在 R 中用 NA 替换值
我有一个字符向量，如下所示: "Internet" "Internet" "-1" "-5" "Internet" "Internet" 我想替换所有负数值的值(-1、-5 等
cmake - 我什么时候应该在 CMake 中用 ${...} 包装变量？
我想知道为什么 CMake 中的变量经常用美元符号和大括号括起来。例如，我看到这个电话in a CMake tutorial . include_directories(${PROJECT_BINAR
php - 是否可以在 codeigniter 中用 where 条件计算所有？
我正在尝试做这样的事情 $this->db->count_all("grant_money")->where('id',5); 这可能吗？如果有任何其他方法可以做到这一点，请告诉我。谢谢我想像上面
c - 为什么需要在 C 中用 * 定义对指针的引用？
为什么这是有效的: int a = 5; int *aPtr = &a; printf("%i", *aPtr); 但这不是: int a = 5; int aPtr = &a; printf("%i
javascript - 如何在 JavaScript 中用 "/"替换字符串中的每个点
假设我有一个格式为“11.23.13”的日期字符串，我想用“/”替换每个点，使其看起来像“11/23/13”。这是我的代码，但它无法正常工作，因为正则表达式看到“.”并将其解释为匹配每个字符而不是新
java - 如何在 java 中用 * 替换控制台输入值？
如何在键盘输入的字符处打印*？例子: 如果我在控制台中输入:mouli，那么它应该将 m 替换为 *，然后是 o用 * 等等。最佳答案使用标准 API 无法解决此问题。如果这确实是一个明确的要求
javascript - 在 Javascript 中用 this 理解内部函数
我最近开始学习 Javascript，同时对卡在这段代码中的代码进行了一些实验: var k = { ab: "hi", func: function() { cons
bash - 如何在 awk 中用 "."替换重复的行？
我需要用“.”替换第一列中的重复项例如: name1 name1 name1 name2 name2 name3 name3 我需要输出: name1 . . name2 . name3 . 我有这
mysql - 在 MySQL 中用 IF 语句比较日期
我有以下两个表 education 和 jobs，每个表都有时间戳字段。在续集语句中，我想选择并确定两个表中保存的两个时间戳中哪个是最新的。我已经尝试了以下但并不愉快； SELECT e.Sta

首页

博学

6Ren·AI

商城

python - 在 panda 数据框中用更好的替代方案替换 for 循环以进行相似性测量