java - 使用和不使用 GZip 和 Jar 文件(内存中的 GZip？)访问给定文本文件行的最快方法-6ren

java - 使用和不使用 GZip 和 Jar 文件(内存中的 GZip？)访问给定文本文件行的最快方法

转载作者：行者123 更新时间：2023-11-29 06:04:41

26

4

我给出了 (5-7) 个大型 UTF8 文本文件 (7 MB)。在 unicode 中，它们的大小约为 15MB。

我需要加载给定文件的给定部分。这些文件是已知的，不会更改。我想尽快访问和加载给定位置的线路。我加载这些添加 HTML 标记的行并将它们显示在 JEditorPane 中。我知道瓶颈将由生成的 HTML 的 JEditorPane 呈现，但现在我想专注于文件访问性能。

此外，用户可以在所有文件中搜索给定的单词。

目前我使用的代码是:

private static void loadFile(String filename, int startLine, int stopLine) {
    try {
        FileInputStream fis = new FileInputStream(filename);                
        InputStreamReader isr = new InputStreamReader(fis, "UTF8");
        BufferedReader reader = new BufferedReader(isr);
        for (int j = startLine; j <= stopLine; j++) {
            //here I add HTML tags
            //or do string comparison in case of search by the user 
            sb.append(reader.readLine());
        }
        reader.close();
    } catch (FileNotFoundException e) {
        System.out.println(e);
    } catch (IOException e) {
        System.out.println(e);
    }
}

现在我的问题:

由于每个文件的部分数量是已知的，在我的例子中是 67 个(对于每个文件)，我可以创建 67 个较小的文件。加载给定部分会“更快”，但当我进行搜索时会更慢，因为我必须打开 67 个文件中的每一个。

我没有做过基准测试，但我的感觉是，在搜索的情况下打开 67 个文件比加载文件的一部分时执行空 reader.readlines 的时间要长得多。

所以在我的情况下，最好有一个更大的文件。你同意吗？

如果我将每个大文件都放在资源中，我的意思是放在 Jar 文件中，性能会更差吗？如果是，性能会更差吗？

相关的问题是，如果我将每个文件压缩到备用大小会怎样。据我所知，Jar 文件只是一个 zip 文件。

我想我不知道解压缩是如何工作的。如果我压缩一个文件，该文件是否会在内存中解压缩，或者我的程序是否能够直接在磁盘上访问我需要的给定行。Jar文件同样会在内存中解压。

如果解压缩不在内存中，有人可以编辑我的代码以使用 zip 文件。

最后一个问题，也是对我来说最重要的问题。如果一切都在内存中执行，我可以提高所有性能，但由于 unicode 和相当大的文件，这很容易导致超过 100MB 的内存堆。是否有可能将 zip 文件加载到内存中并对其进行处理。这会很快并且只使用很少的内存。

问题总结

就我而言，1 个大文件比大量小文件更好。
如果文件被压缩，解压缩过程 (GZipInputStream) 是否在内存中执行。是所有文件都解压在内存中然后访问还是可以直接在磁盘上访问。
如果问题 2 是"is"，有人可以编辑我的代码以实现它吗？
最重要的是:是否可以将 zip 文件加载到内存中以及如何加载？

我希望我的问题足够清楚。 ;-)

更新:感谢 Mike 的 getResourceAsStream 提示，我让它工作了

请注意，基准测试表明加载 Gzip 文件是高效的，但在大多数情况下速度太慢。

gzip 文件大约 200 毫秒标准文件约为 125 毫秒，因此快了 1.6 倍。

假设资源文件夹名为resources

private static void loadFile(String filename, int startLine, int stopLine) {
    try {                           
        GZIPInputStream zip = new GZIPInputStream(this.class.getResourceAsStream("resources/"+filename));            
        InputStreamReader isr = new InputStreamReader(zip, "UTF8");
        BufferedReader reader = new BufferedReader(isr);
        for (int j = startLine; j <= stopLine; j++) {
            //here I add HTML tags
            //or do string comparison in case of search by the user 
            sb.append(reader.readLine());
        }
        reader.close();
    } catch (FileNotFoundException e) {
        System.out.println(e);
    } catch (IOException e) {
        System.out.println(e);
    }
}

最佳答案

如果文件确实不经常更改，我会建议使用其他一些数据结构。创建所有出现的单词和位置的哈希表将使搜索速度更快，创建所有行起始位置的索引将使该过程更快。

但是，更直接地回答您的问题:

是的，一个大文件可能仍然比许多小文件好，我怀疑与打开许多文件或解压缩许多文件相比，从 UTF8 读取一行并解码是否会很明显。
<
是的，解压缩过程是在内存中即时执行的。它在您请求数据时发生，但充当缓冲流，它会一次解压缩整个 block ，因此实际上非常高效。
我无法直接修复您的代码，但我可以建议查找 getResourceAsStream: http://docs.oracle.com/javase/6/docs/api/java/lang/Class.html#getResourceAsStream%28java.lang.String%29此函数将打开一个 zip/jar 文件中的文件，并让您以流的形式访问它，并在您使用它时自动将其解压缩到内存中。
如果您将它视为一种资源，java 会为您完成这一切，您将不得不阅读处理资源的一些细节，但 java 应该公平地处理它聪明地。

关于java - 使用和不使用 GZip 和 Jar 文件(内存中的 GZip？)访问给定文本文件行的最快方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8914135/

26

4

0

文章推荐： Java 列出连接到数据库的参数？

文章推荐： php - 根据另一个选择显示一个选择的下拉值

文章推荐： java - Eclipse bin文件夹位置

spring-boot - 如果在同一个 Jar 中，为什么 Jars in Jars 不能看到 Jars 中其他 Jars 的内容？
tl;博士:我们的 Spring Boot jar 中的类似乎可以看到捆绑的 jar 中的类，但它们的内容似乎无法看到。为什么？我们的主要产品是一个网络应用程序，但所有的业务逻辑都集中在一个核心 m
jar - MR-Jars 可以覆盖其他 jar 中的类吗？
我有一个适用于 Java 8 的 jar。我想创建一个新 jar，它将是多版本 JAR 但为空，只有 META-INF/versions 中的“修补”类. 我想要一个单独的 jar，这样人们就可以在
java - 将 API .JAR 合并到我的 .JAR 应用程序中时遇到问题。 JAR 中的 JAR
免责声明: 在我得到“这个问题已经被问了 1000 次”的标准之前，让我说，是的，我知道。我读了又读又读。看了 JarJar 和 One-JAR，但问题是:我是自学成才的，只有几个月的经验，而且我不熟
Java Jar 将多个 jar 组合成一个可执行 Jar
我知道要组合多个 jar 并创建一个可执行 jar，我需要使用像 OneJar 这样的工具如果我不想解压相关的 jar 。 OneJar 有自己的自定义类加载器，可以在关联的 jar 中找到所需的类并
java - 如何在 Eclipse IDE 项目中将 a.jar、b.jar、c.jar、d.jar 合并到一个名为 e.jar 的 jar 中？你能告诉我们执行此操作的步骤吗？
在我的项目中，我使用许多 jar 文件来支持该项目。随着 jar 文件数量的增加，我想将所有 jar 文件移动到一个 jar 中并利用它。您能给我提供有用的链接吗？可以帮助我做到这一点。最佳答案有
jar - 删除目录中的重复 jar
我有一个脚本可以删除目录中的低版本 jars 文件。 #!/bin/bash #Script to remove lower version jar files. for PREFIX in `ls
jar - 如何以编程方式重新启动 jar？
可执行 jar 文件可以自行重启吗？例如，在用户做出一些选择后，程序会说“重新启动应用程序？”并且用户单击"is"，然后 jar 关闭并自行重新启动。最佳答案需要重新启动应用程序是糟糕设计的标志。
jar - .jar 文件根本打不开
过去两年我一直有这个问题。我有一个从 Internet 下载的 .jar 文件。它应该是一个魔方计时器。当我双击这个 .jar 文件时，没有任何反应。如果我将 .jar 文件设置为使用 java.
jar - Gradle项目依赖项未引用SNAPSHOT jar
我正在尝试在多项目Gradle构建中创建一个胖jar文件，如下所示: root +-- project1 +-- project2 project1提供了基本功能，然后project2将其用于
java - 如何以 jar 格式获得一个包含该 jar 内依赖项的最终 jar？
我需要 Maven 的配置，其中项目内的所有库都以 jar 格式保存在最终的 jar 中...所以我需要在最终的 jar 中包含 jar。为此我只能使用maven。我已经尝试过像 one-jar 这样
java - JAR、Fat JAR、可执行 JAR 之间的区别
JAR、Fat JAR 和 Executable JAR 之间有什么区别？它们是如何从命令行和 gradle.build 任务创建的(如果是 gradle 项目)？除了上面提到的以外，还有其他的JA
java - Maven 插件创建可执行 jar 与未解压的依赖项 (jar with jars)
我阅读了很多构建具有依赖项的可执行 jar 的解决方案(maven 阴影插件、maven 依赖项插件、maven 程序集插件)和所有这些插件解压依赖项 jar 并将它们重新打包到可执行 jar 中。唯
java - "java $SOME_ENV_VAR -jar application.jar"和 "java -jar $SOME_ENV_VAR application.jar"之间的区别
我想问一下java命令中-jar选项前后传递参数有什么区别。考虑 $SOME_ENV_VAR=-Dinstance=qa 最佳答案取决于SOME_ENV_VAR的内容；假设它包含有效的命令行参数，例
jar - Leiningen:创建可执行 jar 以在没有 java -jar 的情况下运行
我试图了解如何打包用 Clojure 编写的命令行应用程序进行分发。我不希望用户不得不使用 java -jar myproject.jar arg1 arg2运行程序。 PHP 有一个叫做“Phar”
jar - gradle - 如何构建一个带有 lib 目录和其他 jar 的 jar？
在 gradle 中 - 如何将 jar 嵌入到 lib 中的构建输出 jar 中目录(特别是 lib/enttoolkit.jar 和 lib/mail.jar)？最佳答案如果您的项目中的一个目
java - javadoc.jar、sources.jar 和 .jar 之间有什么区别？
查看 Google gson 2.8.5 ，我看到这里分发了几个 jar https://repo1.maven.org/maven2/com/google/code/gson/gson/2.8.5/
java - 在 JAR 中包含 JAR 会使类看不到 jar 内容
我正在将 jar 文件和一个主类合并到一个 jar 中。问题是我的主类使用这些 jar ，如果它在一个 jar 中，它就会抛出找不到类定义。如何让类(class)看到 jar 里的 jar ？最佳答
java - 在制作项目 jar 时包含一些 jar 并排除其他 jar 吗？
我正在使用 Maven 进行开发。我有一个要求，我想在我的项目 jar 中包含一些第三方 jar 并排除 pom.xml 文件中指定的其他 jar。下面是我的 pom.xml 文件。 4.0.0 c
java - 你能在一个 jar 文件中添加多个 jar 然后启动那个 jar 文件吗
我正在开发一个 GUI 应用程序，宁愿只分发一个 jar 而不是多个。你能用 list 来控制它吗？最佳答案另一种选择是使用自定义类加载器，例如这个: http://one-jar.source
java - : api. jar + impl.jar + bundle.jar 的用途是什么？
我看到许多 Java 包都有 api、impl 和 bundle jar(name-api.jar、name-impl.jar、name-bundle.jar)。有人可以解释这些是什么意思吗？应用程序

首页

博学

6Ren·AI

商城

java - 使用和不使用 GZip 和 Jar 文件(内存中的 GZip？)访问给定文本文件行的最快方法