- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 SXSSFWorkbook 从头开始编写 Excel 电子表格。
wb = SXSSFWorkbook(500)
wb.isCompressTempFiles = true
sh = streamingWorkbook.createSheet(t.getMessage("template.sheet.name"))
一切都很好,但是当我调用最终代码时:
val out = FileOutputStream(localPath)
wb.write(out)
out.close()
// dispose of temporary files backing this workbook on disk
wb.dispose()
我得到了一个巨大的 Excel 文件,而不是我期待的压缩的 XLSX 文件。我尝试手动压缩该文件,可以将 120MB 的文件压缩到 9MB。那么我错过了什么?
使用:Kotlin 和
implementation group: 'org.apache.poi', name: 'poi-ooxml', version: '4.1.2' // For `.xlsx` files
--更新1
我的印象是 xlsx 本质上是包含 xml 数据的压缩文件 [1] 。 POI 通过 XSSFWorkbook 和 SXSSFWorkbook 输出的内容至少可以压缩 10 个数量级。我使用这个简单的代码来演示:
fun main() {
val workbook = XSSFWorkbook()
writeRowsAndSave(workbook, "test.xlsx")
workbook.close()
val streamingWorkbook = SXSSFWorkbook(IN_MEMORY_ROWS_WINDOW_SIZE)
streamingWorkbook.isCompressTempFiles = true
writeRowsAndSave(streamingWorkbook, "test-streaming.xlsx")
streamingWorkbook.dispose()
}
private fun writeRowsAndSave(workbook: Workbook, fileName: String) {
val ROWS_COUNT = 2_000
val COLS_COUNT = 1_000
val sheet = workbook.createSheet("Test Sheet 1")
for (i in 1..ROWS_COUNT) {
val row = sheet.createRow(i)
println("Row $i")
for(j in 1..COLS_COUNT) {
row.createCell(j).setCellValue("Test $i")
}
}
FileOutputStream("./$fileName").use {
workbook.write(it)
}
}
这会生成每个 5MB 的文件,压缩后大约有 439KB(?!)。
最佳答案
SXSSFWorkbook
默认使用内联字符串而不是共享字符串表。这意味着 SXSSFWorkbook 会直接在工作表中写入文本,即使它是同一文本的多次。 XSSFWorkbook 和 Excel 的 GUI 都使用共享字符串表,其中文本获取索引,相同的文本仅存储一次,然后在工作表中使用索引。但这不会对生成的 *.xlsx
文件大小产生太大影响。
SXSSFWorkbook
以及 apache poi
创建的所有其他 Office Open XML
格式文件均使用 org.apache 进行压缩.commons.compress.archivers.zip.ZipArchiveOutputStream
。它使用 deflate 作为压缩算法,并使用 Deflater.DEFAULT_COMPRESSION
作为默认压缩级别。人们可以覆盖 SXSSFWorkbook 的 protected ZipArchiveOutputStream createArchiveOutputStream(OutputStream out) 来设置另一压缩级别。但这也不会对生成的 *.xlsx
文件大小产生太大影响。
示例Java
代码:
import java.io.File;
import java.io.OutputStream;
import java.io.FileOutputStream;
import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.streaming.SXSSFWorkbook;
import org.apache.commons.compress.archivers.zip.Zip64Mode;
import org.apache.commons.compress.archivers.zip.ZipArchiveOutputStream;
import java.util.zip.Deflater;
class CreateSXSSFDifferentCompression {
static SXSSFWorkbook createSXSSFWorkbook(int compressionLevel, int rowAccessWindowSize,
boolean compressTmpFiles, boolean useSharedStringsTable) {
SXSSFWorkbook workbook = null;
if (compressionLevel != Deflater.DEFAULT_COMPRESSION) {
workbook = new SXSSFWorkbook(null, rowAccessWindowSize, compressTmpFiles, useSharedStringsTable) {
protected ZipArchiveOutputStream createArchiveOutputStream(OutputStream out) {
ZipArchiveOutputStream zos = new ZipArchiveOutputStream(out);
zos.setUseZip64(Zip64Mode.AsNeeded);
zos.setLevel(compressionLevel);
return zos;
}
};
} else {
workbook = new SXSSFWorkbook(null, rowAccessWindowSize, compressTmpFiles, useSharedStringsTable);
}
return workbook;
}
public static void main(String[] args) throws Exception {
SXSSFWorkbook workbook = null;
// uses Deflater.DEFAULT_COMPRESSION and inline strings
//workbook = createSXSSFWorkbook(Deflater.DEFAULT_COMPRESSION, 500, true, false);
// uses Deflater.DEFAULT_COMPRESSION and shared strings table
//workbook = createSXSSFWorkbook(Deflater.DEFAULT_COMPRESSION, 500, true, true);
// uses Deflater.BEST_COMPRESSION and inline strings
workbook = createSXSSFWorkbook(Deflater.BEST_COMPRESSION, 500, true, false);
// uses Deflater.BEST_COMPRESSION and shared strings table
//workbook = createSXSSFWorkbook(Deflater.BEST_COMPRESSION, 500, true, true);
int ROWS_COUNT = 2000;
int COLS_COUNT = 1000;
Sheet sheet = workbook.createSheet("Test Sheet 1");
for (int i = 1 ; i <= ROWS_COUNT; i++) {
Row row = sheet.createRow(i);
//System.out.println("Row " + i);
for(int j = 1; j <= COLS_COUNT; j++) {
row.createCell(j).setCellValue("Test " + i);
}
}
FileOutputStream out = new FileOutputStream("./Excel.xlsx");
workbook.write(out);
out.close();
workbook.close();
workbook.dispose();
File file = new File("./Excel.xlsx");
System.out.println(file.length());
}
}
这会导致 Excel.xlsx
文件大小为:
5,031,034 字节当使用 Deflater.DEFAULT_COMPRESSION 和内联字符串时。
4,972,663 字节当使用Deflater.DEFAULT_COMPRESSION和共享字符串表时。
4,972,915 字节当使用 Deflater.BEST_COMPRESSION 和内联字符串时。
还有4,966,749 字节当使用 Deflater.BEST_COMPRESSION 和共享字符串表时。
使用:Java 12
、apache poi 4.1.2
、Ubuntu Linux
。
对于 2,000 行 x 1,000 列的电子表格,我既不会称其为巨大,也不认为不同设置的影响很大。
并且条目压缩得非常好。
如果您查看 Excel.xlsx
ZIP 存档,您会发现使用内联字符串时 xl/worksheets/sheet1.xml
的未压缩大小为 112,380,273 字节。 xl/sharedStrings.xml
的未压缩大小为 138 字节,仅包含非常基本的 XML。
如果使用共享字符串表,则 xl/worksheets/sheet1.xml
的未压缩大小为 68,377,273 字节,xl/sharedStrings.xml
的未压缩大小为49,045 字节,包含 2,000 个条目。
如果 Excel
本身保存 *.xlsx
文件,则当内容相等时,它会创建文件大小大致相同的文件。因此,Excel
本身使用相同的压缩级别。
当然,在将Excel.xlsx
再次存储到*.zip
存档时,可以进一步压缩*.xlsx
文件。但这并不是 Excel
期望的 *.xlsx
文件。
Microsoft
声明为 What are the benefits of Open XML Formats? :
Compact files Files are automatically compressed and can be up to 75 percent smaller in some cases. The Open XML Format uses zip compression technology to store documents, offering potential cost savings as it reduces the disk space required to store files and decreases the bandwidth needed to send files via e-mail, over networks, and across the Internet. When you open a file, it is automatically unzipped. When you save a file, it is automatically zipped again. You do not have to install any special zip utilities to open and close files in Office.
这里重要的部分是:
When you open a file, it is automatically unzipped. When you save a file, it is automatically zipped again.
这意味着,如果 apache poi
使用 Microsoft Office
本身以外的其他方法或压缩级别来压缩文件,那么 Microsoft Office
将是无法对 apache poi
创建的文件执行此操作。
因此,由于 apache poi
创建了 Excel
(Microsoft Office
) 能够直接打开的文件,因此它使用相同的压缩方法和压缩方式级别为 Excel
(Microsoft Office
) 即可。
关于java - SXSSFWorkbook.write to FileOutputStream 写入大文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60953193/
今天我在一个 Java 应用程序中看到了几种不同的加载文件的方法。 文件:/ 文件:// 文件:/// 这三个 URL 开头有什么区别?使用它们的首选方式是什么? 非常感谢 斯特凡 最佳答案 file
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我有一个 javascript 文件,并且在该方法中有一个“测试”方法,我喜欢调用 C# 函数。 c# 函数与 javascript 文件不在同一文件中。 它位于 .cs 文件中。那么我该如何管理 j
需要检查我使用的文件/目录的权限 //filePath = path of file/directory access denied by user ( in windows ) File fil
我在一个目录中有很多 java 文件,我想在我的 Intellij 项目中使用它。但是我不想每次开始一个新项目时都将 java 文件复制到我的项目中。 我知道我可以在 Visual Studio 和
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎不是关于 a specific programming problem, a software
我有 3 个组件的 Twig 文件: 文件 1: {# content-here #} 文件 2: {{ title-here }} {# content-here #}
我得到了 mod_ldap.c 和 mod_authnz_ldap.c 文件。我需要使用 Linux 命令的 mod_ldap.so 和 mod_authnz_ldap.so 文件。 最佳答案 从 c
我想使用PIE在我的项目中使用 IE7。 但是我不明白的是,我只能在网络服务器上使用 .htc 文件吗? 我可以在没有网络服务器的情况下通过浏览器加载的本地页面中使用它吗? 我在 PIE 的文档中看到
我在 CI 管道中考虑这一点,我应该首先构建和测试我的应用程序,结果应该是一个 docker 镜像。 我想知道使用构建环境在构建服务器上构建然后运行测试是否更常见。也许为此使用构建脚本。最后只需将 j
using namespace std; struct WebSites { string siteName; int rank; string getSiteName() {
我是 Linux 新手,目前正在尝试使用 ginkgo USB-CAN 接口(interface) 的 API 编程功能。为了使用 C++ 对 API 进行编程,他们提供了库文件,其中包含三个带有 .
我刚学C语言,在实现一个程序时遇到了问题将 test.txt 文件作为程序的输入。 test.txt 文件的内容是: 1 30 30 40 50 60 2 40 30 50 60 60 3 30 20
如何连接两个tcpdump文件,使一个流量在文件中出现一个接一个?具体来说,我想“乘以”一个 tcpdump 文件,这样所有的 session 将一个接一个地按顺序重复几次。 最佳答案 mergeca
我有一个名为 input.MP4 的文件,它已损坏。它来自闭路电视摄像机。我什么都试过了,ffmpeg , VLC 转换,没有运气。但是,我使用了 mediainfo和 exiftool并提取以下信息
我想做什么? 我想提取 ISO 文件并编辑其中的文件,然后将其重新打包回 ISO 文件。 (正如你已经读过的) 我为什么要这样做? 我想开始修改 PSP ISO,为此我必须使用游戏资源、 Assets
给定一个 gzip 文件 Z,如果我将其解压缩为 Z',有什么办法可以重新压缩它以恢复完全相同的 gzip 文件 Z?在粗略阅读了 DEFLATE 格式后,我猜不会,因为任何给定的文件都可能在 DEF
我必须从数据库向我的邮件 ID 发送一封带有附件的邮件。 EXEC msdb.dbo.sp_send_dbmail @profile_name = 'Adventure Works Admin
我有一个大的 M4B 文件和一个 CUE 文件。我想将其拆分为多个 M4B 文件,或将其拆分为多个 MP3 文件(以前首选)。 我想在命令行中执行此操作(OS X,但如果需要可以使用 Linux),而
快速提问。我有一个没有实现文件的类的项目。 然后在 AppDelegate 我有: #import "AppDelegate.h" #import "SomeClass.h" @interface A
我是一名优秀的程序员,十分优秀!