java - 逐行比较两个大文件中的数据-6ren

java - 逐行比较两个大文件中的数据

转载作者：行者123 更新时间：2023-11-29 07:55:57

25

4

我需要分析两个应该具有相同结构的大型数据文件之间的差异。每个文件的大小为几千兆字节，可能包含 3000 万行或文本数据。数据文件太大，以至于我犹豫要不要将每个文件加载到它自己的数组中，因为按顺序遍历这些行可能更容易。每行的结构为:

topicIdx, recordIdx, other fields...

topicIdx 和 recordIdx 是顺序的，从零开始，每次迭代递增 +1，因此很容易在文件中找到它们。 (无需四处搜索；只需按顺序向前递增)。

我需要做类似的事情:

for each line in fileA  
    store line in String itemsA  
       get topicIdx and recordIdx  
           find line in fileB with same topicIdx and recordIdx  
               if exists  
                   store this line in string itemsB  
                       for each item in itemsA  
                           compare value with same index in itemsB  
                               if these two items are not virtually equal  
                                   //do something  
                else  
                    //do something else

我用 FileReader 和 BufferedReader 编写了以下代码，但它们的 api 似乎没有提供我需要的功能。任何人都可以告诉我如何修复下面的代码以实现我想要的吗？

void checkData(){  
    FileReader FileReaderA;  
    FileReader FileReaderB;  
    int topicIdx = 0;  
    int recordIdx = 0;  
    try {  
        int numLines = 0;
        FileReaderA = new FileReader("B:\\mypath\\fileA.txt");  
        FileReaderB = new FileReader("B:\\mypath\\fileB.txt");  
        BufferedReader readerA = new BufferedReader(FileReaderA);  
        BufferedReader readerB = new BufferedReader(FileReaderB);
        String lineA = null;
        while ((lineA = readerA.readLine()) != null) {
            if (lineA != null && !lineA.isEmpty()) {
                List<String> itemsA = Arrays.asList(lineA.split("\\s*,\\s*"));
                topicIdx = Integer.parseInt(itemsA.get(0));
                recordIdx = Integer.parseInt(itemsA.get(1));
                String lineB = null;
                //lineB = readerB.readLine();//i know this syntax is wrong
                setB = rows from FileReaderB where itemsB.get(0).equals(itemsA.get(0));
                for each lineB in setB{
                    List<String> itemsB = Arrays.asList(lineB.split("\\s*,\\s*"));
                    for(int m = 0;m<itemsB.size();m++){}
                    for(int j=0;j<itemsA.size();j++){  
                    double myDblA = Double.parseDouble(itemsA.get(j));  
                    double myDblB = Double.parseDouble(itemsB.get(j));  
                    if(Math.abs(myDblA-myDblB)>0.0001){  
                        //do something  
                    }  
                 }  
            }  
        }  
        readerA.close();  
    }   catch (IOException e) {e.printStackTrace();}  
}

最佳答案

您需要按搜索键(recordIdx 和 topicIdx)对这两个文件进行排序，因此您可以像这样进行某种合并操作

open file 1
open file 2
read lineA from file1
read lineB from file2
while (there is lineA and lineB) 
    if (key lineB < key lineA) 
        read lineB from file 2
        continue loop
    if (key lineB > key lineA)
        read lineA from file 1
        continue
    // at this point, you have lineA and lineB with matching keys
    process your data
    read lineB from file 2

请注意，内存中只会有两条记录。

关于java - 逐行比较两个大文件中的数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17662747/

25

4

0

文章推荐： java - 如何重新附加到现有的 Java EE session

文章推荐： Rust 从 fn : mismatched types 返回结果错误

文章推荐： rust - `T.into()` 有效但 `From::from(T)` 无效

逐 block 读取文件时Python不返回所有数据
我正在使用 python 加密一些文件，但我在逐 block 读取文件时遇到问题。有时不会返回最后一个 block 的所有数据。当文件长度为 307200 字节时，我没有问题。当它的长度为 279
html - 逐 block 下载文件客户端
我正在使用 WebRTC 将文件发送到连接的对等方，并且我正在以块的形式发送文件。但是，我无法弄清楚如何让对等方在文件逐块流入时保存/下载文件。我在网上找到的所有例子都推荐做这样的事情: // se
c++ - 逐 block 移动
我用 Tiled 做了一张 map 。它的每一 block 图 block 都尺寸为 32x32 像素，我的主要角色 Sprite 也是。在我的类(class) Player.cpp 中，我有一些计
jquery - 逐 block 滚动站点
我见过一些单页网站，您可以逐 block 滚动，因此您没有无限滚动。你逐 block 移动。是否有提供此功能的任何脚本或其他东西？最佳答案我自己从未使用过它，所以我无法在代码方面为您提供帮助，
c - 逐 block 反转文件内容
这是一个逐 block 反转文件内容的程序。 #include #include #define BS 12 void reverse(char * buffer, int size) { c
c - 逐 block 传输优化循环
在下面的代码中，有没有办法避免 if 语句？ s = 13; /*Total size*/ b = 5; /*Block size*/ x = 0; b1 = b; while(x s)
c++ - 逐 block 模糊图像
我正在尝试分割输入图像并逐个对其进行模糊处理，但毕竟对相邻图 block 调用 cv::blur 我得到了边界像素，这与我有一次将 cv::blur 集体应用于整个图像。 Mat upper(im,
java - 逐 block 读取文件
我想逐个读取文件。该文件被分成几部分，存储在不同类型的媒体上。我目前所做的是调用文件的每个单独部分，然后将其合并回原始文件。问题是我需要等到所有 block 都到达后才能播放/打开文件。是否可以在
json - 逐 block 解析 JSON
我有一个包含客户和日期列表的 JSON 文件。文件看起来像这样: { "Customers": [ { "Customer": "Customer Name Here", "Company"
http - golang从套接字解析分块的HTTP响应-逐 block 读取
我的邮件目标是从连接到HTTP服务器的TCP套接字读取数据，然后解析 HTTP响应块(传输编码:分块)-服务器在同一连接上每30秒发送一个块我附上了我的代码。看起来io.Copy读取第一个块，然后等
python - Numpy 逐 block 减少操作
我认为自己是一位经验丰富的 numpy 用户，但我无法找到以下问题的解决方案。假设有以下数组: # sorted array of times t = numpy.cumsum(numpy.rando
git - 逐 block 应用提交 block
当我将文件添加到暂存区时，我可以 $ git add my_file -p 然后选择我要暂存的 block 。有没有办法 merge/挑选一个提交并逐 block 应用它的差异？谢谢最佳答案我
c# - 逐 block 迭代 mongodb 结果
我有一个 mongodb 查询，它获取大约 50,000 个大文档。这对我的 RAM 来说太多了，因此计算机速度变慢了。现在我想逐 block 迭代 mongodb 结果。我想获取前 1000
java - RSA 逐 block 加密对大于 1kb 的文件产生空白输出
我不会为 AES 或其他加密打开此线程，因为这是我要用来加密 AES 和其他加密的 key 的内容。我从 StackOverflow 和其他一些网站收集了一些代码，并对其进行了编辑以适合我的程序，但是
linux - 逐 block 处理日志，每个 block 包含多行
我在做一些后台工作时尝试收集所有系统统计数据。例如，我使用以下命令来收集 IO 统计信息: iostat -xty 5 此脚本用于每 5 秒收集一次 I/O 统计信息。所以我的日志会包含很多数据 bl
php - 使用 php curl 逐 block 下载大文件
我需要 php 脚本，用于从 url 到服务器的可恢复文件下载。它应该能够开始下载，然后在捕捉时(30 秒 - 5 分钟)恢复，依此类推，直到完成整个文件。 perl 中有类似的东西 http://c
逐 block 读取/打印文件的 Linux shell 命令
是否有标准的 Linux 命令可用于逐 block 读取文件？例如，我有一个大小为 6kB 的文件。我想读取/打印第一个 1kB，然后是第二个 1kB ...似乎 cat/head/tail 在这种情
scala - 如何使用 Spark Structured Streaming 逐 block 处理文件？
我正在处理大量文件，我想逐 block 处理这些文件，假设在每批处理中，我想分别处理每 50 个文件。如何使用 Spark Structured Streaming 来实现？我看到 Jacek L
scala - 如何使用 Spark Structured Streaming 逐 block 处理文件？
我正在处理大量文件，我想逐 block 处理这些文件，假设在每批处理中，我想分别处理每 50 个文件。如何使用 Spark Structured Streaming 来实现？我看到 Jacek L
c++ - 如何使用 openJPEG C++ 逐 block 读取 JP2
我想知道:逐 block 读取 jp2 并将数据存储在缓冲区对象中的预期方法是什么？现在我正在做类似的事情。 /* note I already created stream and configu

首页

博学

6Ren·AI

商城

java - 逐行比较两个大文件中的数据