Java，如何从大文件中提取一些文本并将其导入到较小的文件中-6ren

Java，如何从大文件中提取一些文本并将其导入到较小的文件中

转载作者：太空宇宙更新时间：2023-11-04 07:36:23

我对 Java 编程比较陌生，正在尝试创建一个可以帮助一些同事的应用程序。

我想要做的背景是，读取一个大文件的内容，最多可能超过 400,000 行，其中包含 XML，但不是有效的 XML 文档，就像日志一样。

我想做的是构建一个应用程序，用户在其中输入唯一的 ID，然后扫描文档以查找它是否存在，如果存在，并且该唯一 ID 通常在生成的 XML 中出现几次，然后我想向后遍历到节点 ID <documentRequestMessage> ，然后将所有内容从该节点复制到其结束节点，并将其放入它自己的文档中。

我知道如何创建新文档，但正在努力找出如何本质上“向后查找”并将所有内容复制到结束标记，非常感谢任何帮助。

编辑

不幸的是，到目前为止我还无法弄清楚如何实现这 3 个建议中的任何一个。

correlationId 是前面提到的唯一引用。

我当前的代码可以工作并将结果输出到控制台，是

String correlationId = correlationID.getText();
BufferedReader bf = new BufferedReader(new FileReader(f));
System.out.println("Looking for " + correlationId);
int lineCount = 0;
String line;

while ((line = bf.readLine()) != null) {
    lineCount++;
    int indexFound = line.indexOf(correlationId);

    if (indexFound > -1) {
        System.out.println("Found CorrelationID on line " + "\t" + lineCount + "\t" + line);
    }
}

bf.close();

非常感谢任何进一步的帮助，我不是要求别人为我写它，只是一些非常清晰和基本的说明:)请

编辑2

可以找到我尝试读取和提取的文件的副本 here

最佳答案

当您向前阅读文件以查找您的唯一 ID 时，请保留对您遇到的最新 documentRequestMessage 的引用。当您找到唯一 ID 时，您就已经拥有了提取消息所需的引用。

在这种情况下，“引用”可能有多种含义。由于您没有遍历 DOM(因为它不是有效的 XML)，您可能只会将 documentRequestMessage 所在的位置存储在文件中。如果您使用的是 FileInputStream(或任何支持 mark 的 InputStream)，您只需 mark/reset 即可存储并返回到文件中消息开始的位置。

这是我相信您正在寻找的实现。它根据您链接的日志文件做出了很多假设，但它适用于示例文件:

private static void processMessages(File file, String correlationId)
{
    BufferedReader reader = null;

    try {
        boolean capture = false;
        StringBuilder buffer = new StringBuilder();
        String lastDRM = null;
        String line;

        reader = new BufferedReader(new FileReader(file));

        while ((line = reader.readLine()) != null) {
            String trimmed = line.trim();

            // Blank lines are boring
            if (trimmed.length() == 0) {
                continue;
            }

            // We only actively look for lines that start with an open
            // bracket (after trimming)
            if (trimmed.startsWith("[")) {
                // Do some house keeping - if we have data in our buffer, we
                // should check it to see if we are interested in it
                if (buffer.length() > 0) {
                    String message = buffer.toString();

                    // Something to note here... at this point you could
                    // create a legitimate DOM Document from 'message' if
                    // you wanted to

                    if (message.contains("documentRequestMessage")) {
                        // If the message contains 'documentRequestMessage'
                        // then we save it for later reference
                        lastDRM = message;
                    } else if (message.contains(correlationId)) {
                        // If the message contains the correlationId we are
                        // after, then print out the last message with the
                        // documentRequestMessage that we found, or an error
                        // if we never saw one.
                        if (lastDRM == null) {
                            System.out.println(
                                    "No documentRequestMessage found");
                        } else {
                            System.out.println(lastDRM);
                        }

                        // In either case, we're done here
                        break;
                    }

                    buffer.setLength(0);
                    capture = false;
                }

                // Based on the log file, the only interesting messages are
                // the ones that are DEBUG
                if (trimmed.contains("DEBUG")) {
                    // Some of the debug messages have the XML declaration
                    // on the same line, and some the line after, so let's
                    // figure out which is which...
                    if (trimmed.endsWith("?>")) {
                        buffer.append(
                                trimmed.substring(
                                    trimmed.indexOf("<?")));
                        buffer.append("\n");
                        capture = true;
                    } else if (trimmed.endsWith("Message:")) {
                        capture = true;
                    } else {
                        System.err.println("Can't handle line: " + trimmed);
                    }
                }
            } else {
                if (capture) {
                    buffer.append(line).append("\n");
                }
            }
        }
    } catch (IOException ex) {
        ex.printStackTrace(System.err);
    } finally {
        if (reader != null) {
            try {
                reader.close();
            } catch (IOException ex) {
                /* Ignore */
            }
        }
    }
}

关于Java，如何从大文件中提取一些文本并将其导入到较小的文件中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16813377/

文章推荐： java - 如何在jsp JSTL中缓存显示标签的对象

文章推荐： python - 音乐轨道数据库

hadoop - 将配置单元表标记为已复制/较小
是否可以告诉hive某个表“很小”，即应将其复制到所有节点并在RAM中进行操作？最佳答案尝试以下提示: /*+ MAPJOIN(small_table) */ UPDATE 顺便说一句，还有其他
即使 block 较小，Javascript 数组性能也会崩溃
给定的是一个大(但不是巨大)的字符串数组(数量为 1000-5000 个单个字符串)。我想对这些字符串执行一些计算和其他操作。因为在处理那个大数组时它总是停止工作，所以我重写了我的函数以递归地获取较小
java - JFrame 中默认的 JPanel 较小
当我在大小为 (640,480) 的 JFrame 中添加 JPanel 时，JPanel 的大小为 (638449)。我需要 JPanel 与 JFrame 完全匹配! 我发现的一个临时解决方法是将
html - 如果 parent 较小，如何使图像居中？
我目前正在尝试响应设计。我需要在父 div 变小的同时保持图像居中。见图片说明: 我不想用它作为背景。下面的代码会一直把它放在div框的左上角 #img_wrap {
python - 在生成器中捕获异常时保持 try block 较小
当我必须捕获生成器中可能发生的异常时，如何使 try block 尽可能小？典型的情况是这样的: for i in g(): process(i) 如果 g() 可以引发我需要捕获的异常，第一种
html - 全部关闭时，Bootstrap Accordion header 较小
目前尝试让 Accordion 项目在 Bootstrap 中工作一切都很好，直到我尝试关闭所有 Accordion 菜单。突然之间，标题比未折叠时小得多。当一个打开时当全部关闭时我正在使用指南
html - 全部关闭时，Bootstrap Accordion header 较小
目前尝试让 Accordion 项目在 Bootstrap 中工作一切都很好，直到我尝试关闭所有 Accordion 菜单。突然之间，标题比未折叠时小得多。当一个打开时当全部关闭时我正在使用指南
java - 每个应用程序一个(较大)线程池与每个应用程序组件多个(较小)线程池
一个应用程序托管一个具有三个接口(interface)的 Web 服务，用于三个单独且独立的操作，所有这些操作都在应用程序的不同组件中实现，彼此独立，例如在不同的包等中，所以他们对彼此了解不多，只共享
html - 较小 z-index 元素的圆 Angular
我正在尝试使用 border-radius 属性设计一个主要内容容器具有圆 Angular 的网站。但是，我保持侧边栏和顶部导航栏固定，因此当用户向上或向下滚动时它们不会移动。它类似于在 Google
html - 如果容器 div 较小，则按比例缩小 float div
我正在构建我网站的响应式版本。虽然我很高兴大多数 float 的 div 被迫在屏幕下方，但有一些 div 我需要保持彼此相邻，即使屏幕区域小于这些 div 的总宽度。在这种情况下，我想按比例缩小它
html - 如果 child 较小，则继承父宽度 - child 定位绝对
我正在为我的元素使用 Twitter Bootstraps 网格。我有以下 HTML: Some text Some text
css - 较小 div 内表格的 HTML/CSS 自动宽度，溢出可见
我有一个小宽度的 div 并且可以看到溢出。我有一个更大的表，里面只有一个单元格和一个文本: A small text with spaces...
c# - 如何在 ASP.NET MVC 中保持 Controller 较小？
我有一个设计得很好的架构，其中 Controller 转到访问与数据库通信的存储库的服务。因此， Controller 中的逻辑保持在最低限度，但我仍然有非常微妙的代码片段来执行一些任务，例如验证
android - MATCH_PARENT 如果兄弟 View 较大，WRAP_CONTENT 如果兄弟 View 较小
我在一个布局中有两个 View 。我将分别称它们为 View A 和 View B。 ┌──────┐ │┌─┐┌─┐│ ││A││B││ │└─┘└─┘│ └──────┘ 父布局(包括View A
css - 如果容器 div 较小，如何将子 div 扩展到 100% 屏幕宽度？
整个页面的父元素是一个居中的 div，最大宽度限制为 960px。页面上的所有其他元素都是该父 div 的子元素。简化结构如下: 虽然父 div 的宽度不应超过 960px，但我
jquery - 托管定制(较小)jQuery UI 与从 CDN 进行全尺寸(大)下载的链接？
我应该链接到完整的 jQuery UI -还是-提供精简的自定义副本？来自 Google 等 CDN 的完整 jQuery-UI 与提供定制的最小版本之间存在非常显着的大小差异。此外，还可以将 jQ
jquery - mouseMove 上的水平滚动 - 较小 div 中的宽 div 并溢出 :hidden (Can't get the math to work)
我正在尝试制作一条图像拇指的“线”，它在鼠标移动时滚动。我让它工作了，但我现在的问题是我想在侧面做一个“填充”，这样我就不必将鼠标一直拉到侧面才能看到第一个/最后一个拇指。但我真的无法让它工作:/ 这

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Java，如何从大文件中提取一些文本并将其导入到较小的文件中