java - 将文本文件中的大矩阵加载到 Java 数组中-6ren

java - 将文本文件中的大矩阵加载到 Java 数组中

转载作者：行者123 更新时间：2023-11-30 11:53:13

30

4

我的数据存储在文本文件中的大型矩阵中，其中包含数百万行和 4 列逗号分隔值。 (每列存储一个不同的变量，每行存储所有四个变量的不同毫秒数据。)在前十几行中还有一些不相关的标题数据。我需要编写 Java 代码来将这些数据加载到四个数组中，一个数组对应文本矩阵中的每一列。

Java 代码还需要能够判断 header 何时完成，以便可以将第一个数据行拆分为 4 个数组的条目。最后，Java 代码需要遍历数百万行数据，重复将每一行分解为四个数字的过程，每个数字都输入到数字所在列的适当数组中。

我怎样才能改变下面的代码来完成这个？我想找到完成这种数百万行处理的最快方法。

这是我的代码:

主类2.java

  package packages;

public class MainClass2{
    public static void main(String[] args){
    readfile2 r = new readfile2();
    r.openFile();
    int x1Count = r.readFile();
    r.populateArray(x1Count);
    r.closeFile();  
}
}

读取文件2.java

  package packages;

import java.io.*;
import java.util.*;

public class readfile2 {
private Scanner scan1;
private Scanner scan2;

public void openFile(){
    try{
        scan1 = new Scanner(new File("C:\\test\\samedatafile.txt"));
        scan1 = new Scanner(new File("C:\\test\\samedatafile.txt"));
    }
    catch(Exception e){
        System.out.println("could not find file");
    }
}
public int readFile(){
    int scan1Count = 0;
    while(scan1.hasNext()){
        scan1.next();
        scan1Count += 1;
    }
    return scan1Count;
}
public double[] populateArray(int scan1Count){
    double[] outputArray1 = new double[scan1Count];
    double[] outputArray2 = new double[scan1Count];
    double[] outputArray3 = new double[scan1Count];
    double[] outputArray4 = new double[scan1Count];
    int i = 0;
    while(scan2.hasNext()){
        //what code do I write here to:
        //  1.) identify the start of my time series rows after the end of the header rows (e.g. row starts with a number AT LEAST 4 digits in length.)
        //  2.) split each time series row's data into a separate new entry for each of the 4 output arrays
        i++;
    }
    return outputArray1, outputArray2, outputArray3, outputArray4;
}
public void closeFile(){
    scan1.close();
    scan2.close();
}
}

这是典型数据文件的前 19 行:

text and numbers on first line
1 msec/sample
3 channels
ECG
Volts
Z_Hamming_0_05_LPF
Ohms
dz/dt
Volts
min,CH2,CH4,CH41,
,3087747,3087747,3087747,
0,-0.0518799,17.0624,0,
1.66667E-05,-0.0509644,17.0624,-0.00288295,
3.33333E-05,-0.0497437,17.0624,-0.00983428,
5E-05,-0.0482178,17.0624,-0.0161573,
6.66667E-05,-0.0466919,17.0624,-0.0204402,
8.33333E-05,-0.0448608,17.0624,-0.0213986,
0.0001,-0.0427246,17.0624,-0.0207532,
0.000116667,-0.0405884,17.0624,-0.0229672,

编辑

我测试了 Shilaghae 的代码建议。它似乎工作。但是，所有结果数组的长度都与 x1Count 相同，因此在 Shilaghae 的模式匹配代码无法放置数字的位置保留零。 (这是我最初编写代码的结果。)

我很难找到保留零的索引，但除了 header 所在的预期零之外，似乎还有更多的零。当我绘制 temp[1] 输出的导数时，我看到许多尖锐的尖峰，其中 temp[1] 可能是假零。如果我能分辨出 temp[1]、temp[2] 和 temp[3] 中的零在哪里，我也许能够修改模式匹配以更好地保留所有数据。

另外，最好将输出数组缩短为不再包含标题在输入文件中所在的行。但是，我发现的有关可变长度数组的教程仅显示了过于简单的示例，例如:

int[] anArray = {100, 200, 300, 400};

如果代码不再使用 scan1 来生成 scan1Count，它可能会运行得更快。我不想通过使用低效方法生成可变长度数组来减慢代码速度。在模式匹配无法将输入行拆分为 4 个数字的情况下，我也不想跳过时间序列中的数据。我宁愿保留时间序列中的零，以便我可以找到它们并使用它们来 Debug模式匹配。

这些事情可以用快速运行的代码来完成吗？

第二次编辑

所以

"-{0,1}\\d+.\\d+,"

在表达式中重复次数:

"-{0,1}\\d+.\\d+,-{0,1}\\d+.\\d+,-{0,1}\\d+.\\d+,-{0,1}\\d+.\\d+,"

是

"-{0,1}\\d+.\\d+,"

分解为以下三个语句:

"-{0,1}" means that a minus sign occurs zero or one times, while  

"\\d+." means that the minus sign(or lack of minus sign) is followed by several digits of any value followed by a decimal point, so that finally  

"\\d+," means that the decimal point is followed by several digits of any value?

如果是这样，我的数据中的数字如“1.66667E-05”或“-8.06131E-05”呢？我刚刚扫描了一个输入文件，并且(在 3 多万个 4 列行中)它包含 638 个包含 E 的数字，其中 5 个在第一列，633 个在最后一列。

最佳答案

您可以逐行读取文件，如果该行恰好显示 4 个逗号，则可以使用正则表达式 (http://www.vogella.de/articles/JavaRegularExpressions/article.html) 控制每一行。如果该行恰好显示 4 个逗号，您可以使用 String.split 拆分该行并填充 4 数组，否则您将在下一行传递。

        public double[][] populateArray(int scan1Count){
            double[] outputArray1 = new double[scan1Count];
            double[] outputArray2 = new double[scan1Count];
            double[] outputArray3 = new double[scan1Count];
            double[] outputArray4 = new double[scan1Count];


            //Read File Line By Line
            try {
                File tempfile = new File("samedatafile.txt");
                FileInputStream fis = new FileInputStream(tempfile);
                DataInputStream in = new DataInputStream(fis);
                BufferedReader br = new BufferedReader(new InputStreamReader(in));      
                String strLine;
                int i = 0;
                while ((strLine = br.readLine()) != null)   {
                      Pattern pattern = Pattern.compile("-{0,1}\\d+.\\d+,-{0,1}\\d+.\\d+,-{0,1}\\d+.\\d+,-{0,1}\\d+.\\d+,");
                      Matcher matcher = pattern.matcher(strLine);
                      if (matcher.matches()){
                          String[] split = strLine.split(",");              
                          outputArray1[i] = Double.parseDouble(split[0]);
                          outputArray2[i] = Double.parseDouble(split[1]);
                          outputArray3[i] = Double.parseDouble(split[2]);
                          outputArray4[i] = Double.parseDouble(split[3]);
                      }
                      i++;
                }
            } catch (IOException e) {
                e.printStackTrace();
            }
            double[][] temp = new double[4][];
            temp[0]= outputArray1;
            temp[1]= outputArray2;
            temp[2]= outputArray3;
            temp[3]= outputArray4;
            return temp;
        }

关于java - 将文本文件中的大矩阵加载到 Java 数组中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6421757/

30

4

0

文章推荐： java - 添加 URL.openStream 使用的证书

文章推荐： javascript - 如何更改 Bootstrap-select 的边框颜色

文章推荐： ios - 导航 Controller 不工作

文章推荐： javascript - couchdb 中 "_id"上的索引默认存在？

r - 矩阵 %in% 矩阵
假设我有两个矩阵，每个矩阵有两列和不同的行数。我想检查并查看一个矩阵的哪些对在另一个矩阵中。如果这些是一维的，我通常只会做 a %in% x得到我的结果。 match似乎只适用于向量。 > a
algorithm - 矩阵-矩阵乘法/矩阵-向量乘法有哪些不同类型的算法
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 个月前。 Improv
math - OpenGL 矩阵 VS DirectX 矩阵
我只处理过 DirectX 矩阵我读过一些文章，说不能将 DirectX 矩阵数学库用于 openGL 矩阵。但我也读过，如果你的数学是一致的，你可以获得类似的结果。那只会让我更加困惑。任何人都
c++ - 使用BLAS和OpenMP优化本征重组(矩阵-对角矩阵-矩阵)产品C++
我编写了一个C++代码来解决线性系统A.x = b，其中A是一个对称矩阵，方法是首先使用LAPACK(E)对角矩阵A = V.D.V^T(因为以后需要特征值)，然后求解x = A^-1.b = V^T
c++ - 动态创建一个 3x2 矩阵；打印它显示一个 2x2 矩阵
我遇到了问题。我想创建二维数组 rows=3 cols=2我的代码如下 int **ptr; int row=3; int col=2; ptr=new int *[col]; for (int i=
matlab - 从 3d 矩阵 Matlab 中获取 2d 矩阵
我有一个 3d mxnxt 矩阵，我希望能够提取 t 2d nxm 矩阵。在我的例子中，我有一个 1024x1024x10 矩阵，我想要 10 张图像显示给我。这不是 reshape ，我每次只需要
matlab - 将 3d 矩阵 reshape 为 2d 矩阵
我在 MATLAB 中有一个 3d 矩阵 (n-by-m-by-t) 表示一段时间内网格中的 n-by-m 测量值.我想要一个二维矩阵，其中空间信息消失了，只剩下 n*m 随着时间 t 的测量值(即:
python - 将 3D numpy 矩阵 reshape 为 2D numpy 矩阵，保持行位置
作为一个简化的示例，我有一个 3D numpy 矩阵，如下所示: a = np.array([[[1,2], [4,np.nan], [7,
python - 将 3D numpy 矩阵 reshape 为 2D numpy 矩阵，保持行位置
作为一个简化的示例，我有一个 3D numpy 矩阵，如下所示: a = np.array([[[1,2], [4,np.nan], [7,
c++ - 给定两个动态 R x C 矩阵，我如何交错行以生成一个 2R x C 矩阵？
使用 eigen2 , 并给定一个矩阵 A a_0_0, a_0_1, a_0_2, ... a_1_0, a_1_0, a_1_2, ... ... 和一个矩阵B: b_0_0, b_0_1, b_
html - 中型和大型设备上为 2 x 2 矩阵，小型设备上为 4 x 1 矩阵
我想知道如何获得下面的布局。在中型和大型设备上，我希望有 2 行和 2 列的布局(2 x 2 矩阵)。在小型(和超小型)设备上或调整为小型设备时，我想要一个 4 行和 1 列的矩阵。我将通过 a
matlab - 将(4D 矩阵 * 1D 向量)操作转换为独立的(3D 矩阵 * 0D 标量)操作，无需循环
有什么方法可以向量化以下内容: for i = 1:6 te = k(:,:,:,i).*(c(i)); end 我正在尝试将 4D 矩阵 k 乘以向量 c，方法是将其
随机抽样 - 矩阵
如何从填充有 1 和 0 的矩阵中抽取 n 个随机点的样本？ a=rep(0:1,5) b=rep(0,10) c=rep(1,10) dataset=matrix(cbind(a,b,c),nrow
JavaScript 矩阵
我正在尝试创建一个包含 X 个 X 的矩阵。以下代码生成从左上角到右下角的 X 对 Angular 线，而不是从右上角到左下角的 X 对 Angular 线。我不确定从哪里开始。是否应该使用新变量创建
Python 矩阵
我想在 python 中创建一个每行三列的矩阵，并能够通过任何一行对它们进行索引。矩阵中的每个值都是唯一的。据我所知，我可以设置如下矩阵: matrix = [["username", "name"
java如何创建不同对象的数组/矩阵
我有点迷茫我创建了一个名为 person 的类，它具有 age 和 name 属性(以及 get set 方法)。然后在另一个类中，我想创建一个 persons 数组，其中每个人都有不同的年龄和姓名
Java多维散列/矩阵
我有 n 个类，它们要么堆叠，要么不堆叠。所有这些类都扩展了同一个类 (CellObject)。我知道更多类将添加到此列表中，我想创建一种易于在一个地方操纵“可堆叠性”的方法。我正在考虑创建一个矩阵
Python模糊字符串匹配作为相关样式表/矩阵
我有一个包含 x 个字符串名称及其关联 ID 的文件。本质上是两列数据。我想要的是一个格式为 x x x 的相关样式表(将相关数据同时作为 x 轴和 y 轴)，但我想要 fuzzywuzzy 库的函
机器学习的数学基础--向量，矩阵
机器学习与传统编程的一个重要区别在于机器学习比传统编程涉及了更多的数学知识。不过，随着机器学习的飞速发展，各种框架应运而生，在数据分析等应用中使用机器学习时，使用现成的库和框架成为常态，似乎越来越不需
Julia 问题与结束，矩阵
当我在 julia 中输入这个错误跳转但我不知道为什么，它应该工作。/ julia> A = [1 2 3 4; 5 6 7 8; 1 2 3 4; 5 6 7 8] 4×4 Array{Int64,

首页

博学

6Ren·AI

商城

java - 将文本文件中的大矩阵加载到 Java 数组中

编辑

第二次编辑