Perl:计算大量数据的相关系数时的编程效率-6ren

Perl:计算大量数据的相关系数时的编程效率

转载作者：行者123 更新时间：2023-12-01 07:06:11

26

4

编辑:链接现在应该可以工作了，很抱歉遇到麻烦
我有一个看起来像这样的文本文件:

名称、测试 1、测试 2、测试 3、测试 4、测试 5
鲍勃, 86, 83, 86, 80, 23
爱丽丝，38、90、100、53、32
吉尔，49、53、63、43、23 岁。

我正在编写一个程序，给出这个文本文件，它将生成一个 Pearson 相关系数表，如下所示，其中条目 (x,y) 是人员 x 和人员 y 之间的相关性:

姓名,鲍勃,爱丽丝,吉尔
鲍勃, 1, 0.567088412588577, 0.899798494392584
爱丽丝, 0.567088412588577, 1, 0.812425393004088
吉尔, 0.899798494392584, 0.812425393004088, 1

我的程序有效，除了我提供给它的数据集有 82 列，更重要的是，有 54000 行。当我现在运行我的程序时，它非常慢，并且出现内存不足错误。有没有一种方法可以首先消除内存不足错误的任何可能性，并使程序运行效率更高一些？代码在这里:code .

谢谢你的帮助，
jack

编辑:如果其他人正在尝试进行大规模计算，请将您的数据转换为 hdf5 格式。这就是我最终为解决这个问题所做的。

最佳答案

您将必须至少进行 54000^2*82 次计算和比较。当然，这需要很多时间。你把所有的东西都保存在内存中了吗？这也将是相当大的。它会更慢，但如果您可以将用户保留在数据库中并根据所有其他用户计算一个用户，然后继续下一个并针对所有其他用户而不是一个庞大的数组或散列进行计算，它可能会使用更少的内存。

关于Perl:计算大量数据的相关系数时的编程效率，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/675021/

26

4

0

文章推荐： .NET 类型转换问题 : Simple but difficult

文章推荐： .net - 命名:价格表或。价目单价目表

文章推荐： xna - 如何在 XNA 中编写一个简单的 .text 内容处理器？

python - 多输出线性回归模型的访问权重/系数
我已经训练了一个线性回归模型来以多输出方式进行预测。这是一个时间序列预测问题，根据一组输入来估计 future 12 个月的需求。在过去 - 如果我只预测一个输出值 - 我会简单地调用以下命令来访问模
audio - FFT的返回值(系数)的单位是什么？
我的应用程序对原始音频信号执行FFT(所有麦克风读数均为values中的16位整数值，即1024个单元)。它首先根据16位对读数进行归一化。然后提取频率为400Hz的幅度。 int sample_ra
matlab - 匹配两个系列的 Mfcc 系数
我从包含相同语音内容的两个大约 30 秒的音频文件中提取了两个系列 MFCC 系数。音频文件从不同来源录制在同一位置。应该估计音频是否包含相同的对话或不同的对话。目前我已经测试了两个Mfcc系列的相关
r - 不确定为什么在线性回归中获取 NA 系数
我正在尝试使用两个自变量(批处理和方法)和一个因变量 (conc) 运行线性回归。当我运行回归时，我得到一个系数的 NA 值。当我更改模型中自变量的顺序时，NA 值显示为不同的变量。这是一个可重现的数
arrays - 通过扩展欧几里德算法在任意长度数组上查找 Bezout 系数
我想要的，大图:我想知道如何在 Java 中模仿 Mathematica 的 ExtendedGCD[...] 功能。有关该功能的信息可以在 here 中找到，但为了完整起见，我将对其进行简要描述。
r - 绘制套索 beta 系数
我用 R 编写了这个套索代码，并且得到了一些 beta 值: #Lasso library(MASS) library(glmnet) Boston=na.omit(Boston) x=model.m
c# - 从频率响应计算 FIR 系数
我有一个幅频响应点列表。振幅以分贝为单位给出。任务是将此 AFR 列表导出为某些硬件 DSP 设备的一组系数。我知道此设备的文件格式。该设备的规范表明它需要 12288 个系数，并且 DSP 有 2
替换 [r] 中的 lm 系数
是否可以替换 lm 对象中的系数？我认为以下会起作用 # sample data set.seed(2157010) x1 <- 1998:2011 x2 <- x1 + rnorm(length(
r - MASS::lm.ridge 系数
我正在尝试使用 lm.ridge 方法执行岭回归。我的问题是如何获得拟合模型的系数？我从调用中得到不同的结果: 模型$coef 系数(模型) 哪个是正确的？另外，为什么我从调用中得到不同的结果: co
c++ - Eigen :访问 ProductBase 系数
以下代码片段死于 Eigen 断言: MatrixXd L; VectorXd x, b; ... ASSERT_MATRIX_EQ(L*x, b); 与， template void ASSERT
image-processing - 从编码图像和视频中提取 DCT 系数
有没有办法从编码的图像和视频中轻松提取 DCT 系数(和量化参数)？任何解码器软件都必须使用它们来解码 block DCT 编码的图像和视频。所以我很确定解码器知道它们是什么。有没有办法将它们暴露给使
Matlab libsvm - 如何找到 w 系数
如何找到矢量 w 是多少，即垂直于分离平面？最佳答案我就是这样做的here .如果我没记错的话，这是基于 dual form 的SVM 优化的结果。 model = svmtrain(...);
ffmpeg - 从 mpeg 中提取 DCT 系数
我是 FFMPEG 的新手。我知道如何提取关键帧，但现在我想提取那些 I 帧的 DC 系数。您能否帮助编写 FFMPEG 命令的正确语法以获取 DC 系数？问候最佳答案 FFmpeg 命令不会
video - 从 HEVC 比特流中提取 DCT 系数
任何人都可以共享任何代码或可调用以从 HEVC 比特流中提取变换系数 (DCT/DST) 的函数吗？我检查了 HM 16.0 的源代码。文件\source\Lib\TLibCommon\TComTr
ffmpeg - 来自 MPEG4 流的运动矢量和 DC 系数
我需要从 MPEG4 视频中提取有关运动矢量和 DC 系数的信息。我搜索了相关站点和主题，发现一个好的解决方案是使用 ffmpeg 编解码器的代码。尤其是 libavcodec/mpegvideo.c
python - 如何从 SymPy 符号表达式中删除 (1) 系数？
我想删除sympy符号表达式中等于1的任何系数，例如:我希望 1.0x**2 成为 x**2 ，有办法做到吗？另外，如果可能的话，可以对整数进行舍入，例如将 2.0x**2 变为 2*x**2 最佳答
python - 如何从 SymPy 符号表达式中删除 (1) 系数？
我想删除sympy符号表达式中等于1的任何系数，例如:我希望 1.0x**2 成为 x**2 ，有办法做到吗？另外，如果可能的话，可以对整数进行舍入，例如将 2.0x**2 变为 2*x**2 最佳答
r - 将表示多项逻辑回归的 PMML 转换回 R 系数
我最近的任务是将 PMML 解析回 R 模型。 (我进行了广泛搜索，没有库可以为您进行这种转换。)我正在尝试将包含多项逻辑回归的 PMML 转换回 R 模型，但我不知道如何转换任何PMML 文档中保存
python - 如何使用 statsmodels 获取多元线性回归的标准化(Beta)系数
当使用 pandas statsmodels 的 .summary() 函数时，OLS 回归结果包括以下字段。 coef std err t P>|t| [
c - 如何正确标准化 q15 定点中的 pid 系数
我正在 STM32F4 微 Controller 上使用 CMSIS 库开发 PID Controller 。我实在无法理解PID参数的归一化。现在我有了 PID Controller 的三个 Kp、

首页

博学

6Ren·AI

商城

Perl:计算大量数据的相关系数时的编程效率