- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我给出了 (5-7) 个大型 UTF8 文本文件 (7 MB)。在 unicode 中,它们的大小约为 15MB。
我需要加载给定文件的给定部分。这些文件是已知的,不会更改。我想尽快访问和加载给定位置的线路。我加载这些添加 HTML 标记的行并将它们显示在 JEditorPane 中。我知道瓶颈将由生成的 HTML 的 JEditorPane 呈现,但现在我想专注于文件访问性能。
此外,用户可以在所有文件中搜索给定的单词。
目前我使用的代码是:
private static void loadFile(String filename, int startLine, int stopLine) {
try {
FileInputStream fis = new FileInputStream(filename);
InputStreamReader isr = new InputStreamReader(fis, "UTF8");
BufferedReader reader = new BufferedReader(isr);
for (int j = startLine; j <= stopLine; j++) {
//here I add HTML tags
//or do string comparison in case of search by the user
sb.append(reader.readLine());
}
reader.close();
} catch (FileNotFoundException e) {
System.out.println(e);
} catch (IOException e) {
System.out.println(e);
}
}
现在我的问题:
由于每个文件的部分数量是已知的,在我的例子中是 67 个(对于每个文件),我可以创建 67 个较小的文件。加载给定部分会“更快”,但当我进行搜索时会更慢,因为我必须打开 67 个文件中的每一个。
我没有做过基准测试,但我的感觉是,在搜索的情况下打开 67 个文件比加载文件的一部分时执行空 reader.readlines 的时间要长得多。
所以在我的情况下,最好有一个更大的文件。你同意吗?
如果我将每个大文件都放在资源中,我的意思是放在 Jar 文件中,性能会更差吗?如果是,性能会更差吗?
相关的问题是,如果我将每个文件压缩到备用大小会怎样。据我所知,Jar 文件只是一个 zip 文件。
我想我不知道解压缩是如何工作的。如果我压缩一个文件,该文件是否会在内存中解压缩,或者我的程序是否能够直接在磁盘上访问我需要的给定行。Jar文件同样会在内存中解压。
如果解压缩不在内存中,有人可以编辑我的代码以使用 zip 文件。
最后一个问题,也是对我来说最重要的问题。如果一切都在内存中执行,我可以提高所有性能,但由于 unicode 和相当大的文件,这很容易导致超过 100MB 的内存堆。是否有可能将 zip 文件加载到内存中并对其进行处理。这会很快并且只使用很少的内存。
问题总结
就我而言,1 个大文件比大量小文件更好。
如果文件被压缩,解压缩过程 (GZipInputStream) 是否在内存中执行。是所有文件都解压在内存中然后访问还是可以直接在磁盘上访问。
如果问题 2 是"is",有人可以编辑我的代码以实现它吗?
最重要的是:是否可以将 zip 文件加载到内存中以及如何加载?
我希望我的问题足够清楚。 ;-)
更新:感谢 Mike 的 getResourceAsStream 提示,我让它工作了
请注意,基准测试表明加载 Gzip 文件是高效的,但在大多数情况下速度太慢。
gzip 文件大约 200 毫秒标准文件约为 125 毫秒,因此快了 1.6 倍。
假设资源文件夹名为resources
private static void loadFile(String filename, int startLine, int stopLine) {
try {
GZIPInputStream zip = new GZIPInputStream(this.class.getResourceAsStream("resources/"+filename));
InputStreamReader isr = new InputStreamReader(zip, "UTF8");
BufferedReader reader = new BufferedReader(isr);
for (int j = startLine; j <= stopLine; j++) {
//here I add HTML tags
//or do string comparison in case of search by the user
sb.append(reader.readLine());
}
reader.close();
} catch (FileNotFoundException e) {
System.out.println(e);
} catch (IOException e) {
System.out.println(e);
}
}
最佳答案
如果文件确实不经常更改,我会建议使用其他一些数据结构。创建所有出现的单词和位置的哈希表将使搜索速度更快,创建所有行起始位置的索引将使该过程更快。
但是,更直接地回答您的问题:
是的,一个大文件可能仍然比许多小文件好,我怀疑与打开许多文件或解压缩许多文件相比,从 UTF8 读取一行并解码是否会很明显。
<是的,解压缩过程是在内存中即时执行的。它在您请求数据时发生,但充当缓冲流,它会一次解压缩整个 block ,因此实际上非常高效。
我无法直接修复您的代码,但我可以建议查找 getResourceAsStream: http://docs.oracle.com/javase/6/docs/api/java/lang/Class.html#getResourceAsStream%28java.lang.String%29此函数将打开一个 zip/jar 文件中的文件,并让您以流的形式访问它,并在您使用它时自动将其解压缩到内存中。
如果您将它视为一种资源,java 会为您完成这一切,您将不得不阅读处理资源的一些细节,但 java 应该公平地处理它聪明地。
关于java - 使用和不使用 GZip 和 Jar 文件(内存中的 GZip?)访问给定文本文件行的最快方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8914135/
tl;博士:我们的 Spring Boot jar 中的类似乎可以看到捆绑的 jar 中的类,但它们的内容似乎无法看到。为什么? 我们的主要产品是一个网络应用程序,但所有的业务逻辑都集中在一个核心 m
我有一个适用于 Java 8 的 jar。 我想创建一个新 jar,它将是多版本 JAR 但为空,只有 META-INF/versions 中的“修补”类. 我想要一个单独的 jar,这样人们就可以在
免责声明: 在我得到“这个问题已经被问了 1000 次”的标准之前,让我说,是的,我知道。我读了又读又读。看了 JarJar 和 One-JAR,但问题是:我是自学成才的,只有几个月的经验,而且我不熟
我知道要组合多个 jar 并创建一个可执行 jar,我需要使用像 OneJar 这样的工具如果我不想解压相关的 jar 。 OneJar 有自己的自定义类加载器,可以在关联的 jar 中找到所需的类并
在我的项目中,我使用许多 jar 文件来支持该项目。随着 jar 文件数量的增加,我想将所有 jar 文件移动到一个 jar 中并利用它。您能给我提供有用的链接吗?可以帮助我做到这一点。 最佳答案 有
我有一个脚本可以删除目录中的低版本 jars 文件。 #!/bin/bash #Script to remove lower version jar files. for PREFIX in `ls
可执行 jar 文件可以自行重启吗?例如,在用户做出一些选择后,程序会说“重新启动应用程序?”并且用户单击"is",然后 jar 关闭并自行重新启动。 最佳答案 需要重新启动应用程序是糟糕设计的标志。
过去两年我一直有这个问题。 我有一个从 Internet 下载的 .jar 文件。它应该是一个魔方计时器。 当我双击这个 .jar 文件时,没有任何反应。如果我将 .jar 文件设置为使用 java.
我正在尝试在多项目Gradle构建中创建一个胖jar文件,如下所示: root +-- project1 +-- project2 project1提供了基本功能,然后project2将其用于
我需要 Maven 的配置,其中项目内的所有库都以 jar 格式保存在最终的 jar 中...所以我需要在最终的 jar 中包含 jar。为此我只能使用maven。我已经尝试过像 one-jar 这样
JAR、Fat JAR 和 Executable JAR 之间有什么区别?它们是如何从命令行和 gradle.build 任务创建的(如果是 gradle 项目)? 除了上面提到的以外,还有其他的JA
我阅读了很多构建具有依赖项的可执行 jar 的解决方案(maven 阴影插件、maven 依赖项插件、maven 程序集插件)和所有这些插件解压依赖项 jar 并将它们重新打包到可执行 jar 中。唯
我想问一下java命令中-jar选项前后传递参数有什么区别。考虑 $SOME_ENV_VAR=-Dinstance=qa 最佳答案 取决于SOME_ENV_VAR的内容;假设它包含有效的命令行参数,例
我试图了解如何打包用 Clojure 编写的命令行应用程序进行分发。我不希望用户不得不使用 java -jar myproject.jar arg1 arg2运行程序。 PHP 有一个叫做“Phar”
在 gradle 中 - 如何将 jar 嵌入到 lib 中的构建输出 jar 中目录(特别是 lib/enttoolkit.jar 和 lib/mail.jar)? 最佳答案 如果您的项目中的一个目
查看 Google gson 2.8.5 ,我看到这里分发了几个 jar https://repo1.maven.org/maven2/com/google/code/gson/gson/2.8.5/
我正在将 jar 文件和一个主类合并到一个 jar 中。问题是我的主类使用这些 jar ,如果它在一个 jar 中,它就会抛出找不到类定义。如何让类(class)看到 jar 里的 jar ? 最佳答
我正在使用 Maven 进行开发。我有一个要求,我想在我的项目 jar 中包含一些第三方 jar 并排除 pom.xml 文件中指定的其他 jar。下面是我的 pom.xml 文件。 4.0.0 c
我正在开发一个 GUI 应用程序,宁愿只分发一个 jar 而不是多个。 你能用 list 来控制它吗? 最佳答案 另一种选择是使用自定义类加载器,例如这个: http://one-jar.source
我看到许多 Java 包都有 api、impl 和 bundle jar(name-api.jar、name-impl.jar、name-bundle.jar)。有人可以解释这些是什么意思吗?应用程序
我是一名优秀的程序员,十分优秀!