java - 需要高性能的文本文件读取和解析(类似 split())-6ren

java - 需要高性能的文本文件读取和解析(类似 split())

转载作者：行者123 更新时间：2023-11-30 05:03:33

25

4

目前我有:

1 个文件，包含 900 万行
BufferedReader.readLine() 读取每一行
String.split() 解析每一行(由管道分隔的列)
使用了大量 RAM(因为字符串驻留？)

问题是:正如您可能已经猜到的，我想更好地阅读和解析这个文件......

问题:

如何使用最少的资源读取这个相对较大的文件(知道每一行都需要在管道上进行某种“拆分”)？
我可以用其他东西替换 String.split (比如说，StringBuilder、CharBuffer，...)？
在将字符串拆分为最终字符序列之前，避免使用字符串读取文件的最佳方法是什么？
我不介意在 POJO 中使用 String 以外的其他东西，如果您有更好的东西？
该文件将每隔几个小时重新加载一次，这是否有助于您为我提供解决方案？

谢谢:)

最佳答案

900 万行的文件应该需要不到几秒钟的时间。大部分时间将花费在将数据读入内存中。如何分割数据不太可能产生太大的影响。

BufferedReader 和 String.split 对我来说听起来不错。除非你确定这会有帮助，否则我不会使用实习。 (它不会为你 intern() )

最新版本的 Java 6 在处理字符串方面有一些性能改进。我会尝试 Java 6 update 25，看看它是否更快。

<小时/>

编辑:做一些测试发现 split 出奇地慢，你可以改进它。

public static void main(String... args) throws IOException {
    long start1 = System.nanoTime();
    PrintWriter pw = new PrintWriter("deleteme.txt");
    StringBuilder sb = new StringBuilder();
    for (int j = 1000; j < 1040; j++)
        sb.append(j).append(' ');
    String outLine = sb.toString();
    for (int i = 0; i < 1000 * 1000; i++)
        pw.println(outLine);
    pw.close();
    long time1 = System.nanoTime() - start1;
    System.out.printf("Took %f seconds to write%n", time1 / 1e9);

    {
        long start = System.nanoTime();
        FileReader fr = new FileReader("deleteme.txt");
        char[] buffer = new char[1024 * 1024];
        while (fr.read(buffer) > 0) ;
        fr.close();
        long time = System.nanoTime() - start;
        System.out.printf("Took %f seconds to read text as fast as possible%n", time / 1e9);
    }
    {
        long start = System.nanoTime();
        BufferedReader br = new BufferedReader(new FileReader("deleteme.txt"));
        String line;
        while ((line = br.readLine()) != null) {
            String[] words = line.split(" ");
        }
        br.close();
        long time = System.nanoTime() - start;
        System.out.printf("Took %f seconds to read lines and split%n", time / 1e9);
    }
    {
        long start = System.nanoTime();
        BufferedReader br = new BufferedReader(new FileReader("deleteme.txt"));
        String line;
        Pattern splitSpace = Pattern.compile(" ");
        while ((line = br.readLine()) != null) {
            String[] words = splitSpace.split(line, 0);
        }
        br.close();
        long time = System.nanoTime() - start;
        System.out.printf("Took %f seconds to read lines and split (precompiled)%n", time / 1e9);
    }
    {
        long start = System.nanoTime();
        BufferedReader br = new BufferedReader(new FileReader("deleteme.txt"));
        String line;
        List<String> words = new ArrayList<String>();
        while ((line = br.readLine()) != null) {
            words.clear();
            int pos = 0, end;
            while ((end = line.indexOf(' ', pos)) >= 0) {
                words.add(line.substring(pos, end));
                pos = end + 1;
            }
            // words.
            //System.out.println(words);
        }
        br.close();
        long time = System.nanoTime() - start;
        System.out.printf("Took %f seconds to read lines and break using indexOf%n", time / 1e9);
    }
}

打印

Took 1.757984 seconds to write
Took 1.158652 seconds to read text as fast as possible
Took 6.671587 seconds to read lines and split
Took 4.210100 seconds to read lines and split (precompiled)
Took 1.642296 seconds to read lines and break using indexOf

看来，自己拆分字符串是一种改进，可以让您尽可能快地处理文本。更快地读取它的唯一方法是将文件视为二进制/ASCII-7。 ;)

关于java - 需要高性能的文本文件读取和解析(类似 split())，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5866707/

25

4

0

文章推荐： java - 在 Java Swing 应用程序中创建复选框

文章推荐： android - 如何在gradle中强制下载aar版本的依赖项

文章推荐： android - 如何避免重复定义变量

类似 SQL 的搜索字符串开头为
学习SQL。有一个简单的带有字段标题的桌面游戏。我想根据标题进行搜索。如果我有一款名为 Age of Empires III: Dynasties 的游戏，并且我使用 LIKE 和参数 Age of
haskell - 为列表创建一个镜头(类似)
我正在尝试为以下数据结构创建镜头。我正在使用lens-family . data Tree = Tree { _text :: String, _subtrees ::
类似 Clojure 的方式在循环中使用数据结构
我发现很难理解这一点。比如说，在 Python 中，如果我想要一个根据用户输入在循环中修改的列表，我会有这样的内容: def do_something(): x = [] while(
类似 mysql 的部分匹配问题
我有一个像这样的 mysql 查询 SELECT group_name FROM t_groups WHERE group_name LIKE '%PCB%'; 结果是 group_name ----
MySQL - 类似 - 正则表达式的替代品？
我的数据库表中有超过一百万条记录。当我使用like时非常慢，当我使用match against时他们丢失了一些记录。我创建帮助表: 标签列表 tag_id tag_name tag_rel_me
javascript - JXBrowser 类似
我在我的一个 Java 项目中使用 JXBrowser 来简单显示 googlemaps 网页，以便我可以在那里跟踪路线，但最近我想改进该项目，但我的问题是 JXBrowser 的许可证过期(只有一个
类似 Mysql 的语法
小问题:如何将 mysql_escape_string 变量包含在 like 子句中？ "SELECT * FROM table WHERE name LIKE '%". %s . "%'" 或
类似 Javascript 的确认框
我尝试使用几个jquery消息插件，例如alertify . 但我注意到的主要事情是系统消息框会停止后台功能，直到用户响应。其他插件没有此功能。有没有办法将此功能添加到 jquery 插件中？可以扩
类似 ruby 猫壳
我是 Ruby 新手。我过去使用过 shell。我正在将 shell 程序转换为 ruby。我有以下命令 cmd="cat -n " + infile + " | grep '127.0.0.1
类似 iOS 的网页界面
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
string - 类似 str 的迭代器
当我研究 Rust 时，我试图编写一个 Rust 函数来查看任何可迭代的字符串。我最初的尝试是 fn example_1(iter: impl Iterator); fn example_2(ite
GWT 代码拆分下载进度条 - 类似 gmail
我必须在我的项目中使用代码拆分。但无论如何，第一次初始下载有一些代码。现在我想向最终用户展示代码下载(.cache.html - 或其他代码拆分)的进度，例如 gmail 启动进度。请你帮帮我。
Clojure::类似 Lint 的提示
我今天找到了一个错误，它最终是由我代码中的以下片段引起的(我试图在列表中仅过滤“PRIMARY KEY”约束): (filter #(= (% :constraint_type "PRIMARY KE
SQL Server - 类似/模式匹配
我正在尝试在关键字段上实现检查约束。关键字段由 3 个字符的前缀组成，然后附加数字字符(可以手动提供，但默认是从序列中获取整数值，然后将其转换为 nvarchar)。关键字段定义为 nvarhcar(
java - 类似 ArrayList 声明之间的类型差异
我正在尝试使用以下方式创建 List 实例: List listOne = new ArrayList(); List listTwo = new ArrayList(){}; List listTh
macos - UITableView 类似 NSTableView
我过去曾为 iOS 开发过，最近转向了 mac 开发。我开始了一个“感受”事物的项目，但遇到了一个问题。我试图创建一个 NSTableView 来显示多个项目，包括一个标签、一个 2 UIImageV
类似 "not having"的 SQL 查询？
我正在尝试编写一个查询，该查询将返回哪些主机缺少某个软件: Host Software A Title1 A
c - 类似 malloc 函数的严格别名的原因
AFAIK，在三种情况下别名是可以的仅限定符或符号不同的类型可以互为别名。 struct 或 union 类型可以为包含在其中的类型设置别名。将 T* 转换为 char* 是可以的。 (不允许相反
regex - 类似 Perl 的速记字符类在括号表达式中不起作用
\s 似乎不适用于 sed 's/[\s]\+//' tempfile 当它为工作时 sed 's/[ ]\+//' tempfile 我正在尝试删除由于命令而出现在每行开头的空格: nl -s ')
F# 图形库(类似 ocamlgraph)
我正在使用 ocamlgraph 在 ocaml 中编写程序，并想知道是否要将其移植到 F# 我有哪些选择？谢谢。最佳答案 QuickGraph .Net 最完整的图形库之一关于F# 图形库(类似

首页

博学

6Ren·AI

商城

java - 需要高性能的文本文件读取和解析(类似 split())