- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 SXSSFWorkbook 从头开始编写 Excel 电子表格。
wb = SXSSFWorkbook(500)
wb.isCompressTempFiles = true
sh = streamingWorkbook.createSheet(t.getMessage("template.sheet.name"))
一切都很好,但是当我调用最终代码时:
val out = FileOutputStream(localPath)
wb.write(out)
out.close()
// dispose of temporary files backing this workbook on disk
wb.dispose()
我得到了一个巨大的 Excel 文件,而不是我期待的压缩的 XLSX 文件。我尝试手动压缩该文件,可以将 120MB 的文件压缩到 9MB。那么我错过了什么?
使用:Kotlin 和
implementation group: 'org.apache.poi', name: 'poi-ooxml', version: '4.1.2' // For `.xlsx` files
--更新1
我的印象是 xlsx 本质上是包含 xml 数据的压缩文件 [1] 。 POI 通过 XSSFWorkbook 和 SXSSFWorkbook 输出的内容至少可以压缩 10 个数量级。我使用这个简单的代码来演示:
fun main() {
val workbook = XSSFWorkbook()
writeRowsAndSave(workbook, "test.xlsx")
workbook.close()
val streamingWorkbook = SXSSFWorkbook(IN_MEMORY_ROWS_WINDOW_SIZE)
streamingWorkbook.isCompressTempFiles = true
writeRowsAndSave(streamingWorkbook, "test-streaming.xlsx")
streamingWorkbook.dispose()
}
private fun writeRowsAndSave(workbook: Workbook, fileName: String) {
val ROWS_COUNT = 2_000
val COLS_COUNT = 1_000
val sheet = workbook.createSheet("Test Sheet 1")
for (i in 1..ROWS_COUNT) {
val row = sheet.createRow(i)
println("Row $i")
for(j in 1..COLS_COUNT) {
row.createCell(j).setCellValue("Test $i")
}
}
FileOutputStream("./$fileName").use {
workbook.write(it)
}
}
这会生成每个 5MB 的文件,压缩后大约有 439KB(?!)。
最佳答案
SXSSFWorkbook
默认使用内联字符串而不是共享字符串表。这意味着 SXSSFWorkbook 会直接在工作表中写入文本,即使它是同一文本的多次。 XSSFWorkbook 和 Excel 的 GUI 都使用共享字符串表,其中文本获取索引,相同的文本仅存储一次,然后在工作表中使用索引。但这不会对生成的 *.xlsx
文件大小产生太大影响。
SXSSFWorkbook
以及 apache poi
创建的所有其他 Office Open XML
格式文件均使用 org.apache 进行压缩.commons.compress.archivers.zip.ZipArchiveOutputStream
。它使用 deflate 作为压缩算法,并使用 Deflater.DEFAULT_COMPRESSION
作为默认压缩级别。人们可以覆盖 SXSSFWorkbook 的 protected ZipArchiveOutputStream createArchiveOutputStream(OutputStream out) 来设置另一压缩级别。但这也不会对生成的 *.xlsx
文件大小产生太大影响。
示例Java
代码:
import java.io.File;
import java.io.OutputStream;
import java.io.FileOutputStream;
import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.streaming.SXSSFWorkbook;
import org.apache.commons.compress.archivers.zip.Zip64Mode;
import org.apache.commons.compress.archivers.zip.ZipArchiveOutputStream;
import java.util.zip.Deflater;
class CreateSXSSFDifferentCompression {
static SXSSFWorkbook createSXSSFWorkbook(int compressionLevel, int rowAccessWindowSize,
boolean compressTmpFiles, boolean useSharedStringsTable) {
SXSSFWorkbook workbook = null;
if (compressionLevel != Deflater.DEFAULT_COMPRESSION) {
workbook = new SXSSFWorkbook(null, rowAccessWindowSize, compressTmpFiles, useSharedStringsTable) {
protected ZipArchiveOutputStream createArchiveOutputStream(OutputStream out) {
ZipArchiveOutputStream zos = new ZipArchiveOutputStream(out);
zos.setUseZip64(Zip64Mode.AsNeeded);
zos.setLevel(compressionLevel);
return zos;
}
};
} else {
workbook = new SXSSFWorkbook(null, rowAccessWindowSize, compressTmpFiles, useSharedStringsTable);
}
return workbook;
}
public static void main(String[] args) throws Exception {
SXSSFWorkbook workbook = null;
// uses Deflater.DEFAULT_COMPRESSION and inline strings
//workbook = createSXSSFWorkbook(Deflater.DEFAULT_COMPRESSION, 500, true, false);
// uses Deflater.DEFAULT_COMPRESSION and shared strings table
//workbook = createSXSSFWorkbook(Deflater.DEFAULT_COMPRESSION, 500, true, true);
// uses Deflater.BEST_COMPRESSION and inline strings
workbook = createSXSSFWorkbook(Deflater.BEST_COMPRESSION, 500, true, false);
// uses Deflater.BEST_COMPRESSION and shared strings table
//workbook = createSXSSFWorkbook(Deflater.BEST_COMPRESSION, 500, true, true);
int ROWS_COUNT = 2000;
int COLS_COUNT = 1000;
Sheet sheet = workbook.createSheet("Test Sheet 1");
for (int i = 1 ; i <= ROWS_COUNT; i++) {
Row row = sheet.createRow(i);
//System.out.println("Row " + i);
for(int j = 1; j <= COLS_COUNT; j++) {
row.createCell(j).setCellValue("Test " + i);
}
}
FileOutputStream out = new FileOutputStream("./Excel.xlsx");
workbook.write(out);
out.close();
workbook.close();
workbook.dispose();
File file = new File("./Excel.xlsx");
System.out.println(file.length());
}
}
这会导致 Excel.xlsx
文件大小为:
5,031,034 字节当使用 Deflater.DEFAULT_COMPRESSION 和内联字符串时。
4,972,663 字节当使用Deflater.DEFAULT_COMPRESSION和共享字符串表时。
4,972,915 字节当使用 Deflater.BEST_COMPRESSION 和内联字符串时。
还有4,966,749 字节当使用 Deflater.BEST_COMPRESSION 和共享字符串表时。
使用:Java 12
、apache poi 4.1.2
、Ubuntu Linux
。
对于 2,000 行 x 1,000 列的电子表格,我既不会称其为巨大,也不认为不同设置的影响很大。
并且条目压缩得非常好。
如果您查看 Excel.xlsx
ZIP 存档,您会发现使用内联字符串时 xl/worksheets/sheet1.xml
的未压缩大小为 112,380,273 字节。 xl/sharedStrings.xml
的未压缩大小为 138 字节,仅包含非常基本的 XML。
如果使用共享字符串表,则 xl/worksheets/sheet1.xml
的未压缩大小为 68,377,273 字节,xl/sharedStrings.xml
的未压缩大小为49,045 字节,包含 2,000 个条目。
如果 Excel
本身保存 *.xlsx
文件,则当内容相等时,它会创建文件大小大致相同的文件。因此,Excel
本身使用相同的压缩级别。
当然,在将Excel.xlsx
再次存储到*.zip
存档时,可以进一步压缩*.xlsx
文件。但这并不是 Excel
期望的 *.xlsx
文件。
Microsoft
声明为 What are the benefits of Open XML Formats? :
Compact files Files are automatically compressed and can be up to 75 percent smaller in some cases. The Open XML Format uses zip compression technology to store documents, offering potential cost savings as it reduces the disk space required to store files and decreases the bandwidth needed to send files via e-mail, over networks, and across the Internet. When you open a file, it is automatically unzipped. When you save a file, it is automatically zipped again. You do not have to install any special zip utilities to open and close files in Office.
这里重要的部分是:
When you open a file, it is automatically unzipped. When you save a file, it is automatically zipped again.
这意味着,如果 apache poi
使用 Microsoft Office
本身以外的其他方法或压缩级别来压缩文件,那么 Microsoft Office
将是无法对 apache poi
创建的文件执行此操作。
因此,由于 apache poi
创建了 Excel
(Microsoft Office
) 能够直接打开的文件,因此它使用相同的压缩方法和压缩方式级别为 Excel
(Microsoft Office
) 即可。
关于java - SXSSFWorkbook.write to FileOutputStream 写入大文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60953193/
我正在执行 UPDATE .WRITE() 语句,并发现它显然只有在您像这样定义它时才有效: string sql = "UPDATE [dbo].[Table] SET [Column].WRITE
我在 Unix 系统上用 C 编程。我知道: write(fd,"ABCD",4); 比这样做更好: write(fd, "A", 1); write(fd, "B", 1); write(fd, "
func hash(s string) uint32 { h := fnv.New32a() h.Write([]byte(s)) return h.Sum32() } 对于这
在经典的 asp 页面中,有人告诉我您可以使用 vbscript 或 jscript。而 jscript 就是 javascript。 所以我不确定 Response.Write、Response.W
当 openssl 子进程尝试 write() 到本地目录时,我收到此错误。在调用 write() 之前连接已关闭。它没有与 ssl 连接,因为我什至无法从 nodejs 文档启动示例代码。 我错过了
最近我在试验netty。我遇到了以下问题: ctx.channel().write(new TextWebSocketFrame("hello")) 没有在客户端返回 hello,但是 ctx.cha
请解释以下内容: def feed(data): import os print "DATA LEN: %s" % len(data) f = open("copy", "w") f.
有什么区别debug.write 和 Trace.write ?每个应该什么时候使用? 最佳答案 在典型的发布构建配置中,Debug class 被禁用并且什么都不做。 Trace但是,仍然可以在发行
我只是想知道,就性能而言,哪个更好(我在 FileStream 中使用 StreamWriter): 多次调用 Stream.Write(): StreamWriter sw = new Stream
我发现自己写给 stringwriter,然后在函数末尾执行 resp.Write(sw.ToString())。这是不必要的吗?如果我多次使用 HttpResponse.Write,即使我的页面是
我正在尝试通过 JavaScript 文件从 electron 打开一个新窗口,它可以工作,并打开了新窗口,但我无法将 HTML/文本写入新文件。我收到那个错误: Cannot read proper
我们对 QIODevice::write 的一般行为和具体的 QTcpSocket 实现感到非常困惑。有一个 similar question已经,但答案并不令人满意。主要的混淆源于分别提到的 byt
我知道这听起来像是一个愚蠢的问题: write(*,*) 和 write(6,*) ?我在我研究所的 super 计算机上运行一个复杂的代码,它通过一个不同于 6 的单元号输出一个数据文件,显然编译的
我有一个结构体,它可以通过一系列复杂的方法调用转换为文本,其中包含大量 write!调用。此文本可以写入文件或调试日志。我正在决定是否使用 fmt::Write 或 io::Write .我不能真正使
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。 这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
In the C standard library, an output can't be followed by an input and vice versa. 对于Linux API,可以在re
我希望能够为一件事做 document.write。然后延迟半秒,然后再记录。写一些。你知道这是否可能吗?而且,如果是这样,怎么办?到目前为止,我已经尝试过了,但没有奏效: document.writ
为什么通过 onclick 属性调用的 write() 函数解析为 document.write() 并替换文档?有什么办法可以阻止这种情况发生吗? Write Function Alternat
我想创建一个包含多个“页面”的文本文件,并将每个页面的字节偏移量记录在一个单独的文件中。为此,我将字符串打印到主输出文件并使用 bytes_written += file.write(str) 计算字
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
我是一名优秀的程序员,十分优秀!