gpt4 book ai didi

r - 我可以从 R 中的同一数据帧中写入相同的 xlsx 文件吗?

转载 作者:行者123 更新时间:2023-12-04 19:45:21 25 4
gpt4 key购买 nike

当给定要写入的相同数据时,我能否确保两个 XLSX 文件(使用 openxlsx::write.xlsx 编写)相同?我认为电子表格中写入了一个时间戳,这意味着相隔一秒以上写入的相同数据会创建一个不同的文件。
例如,当快速连续编写时:

library(openxlsx)
write.xlsx(mtcars, "/tmp/t1.xlsx");write.xlsx(mtcars, "/tmp/t2.xlsx")
这些文件是相同的:
$ md5sum /tmp/t?.xlsx
c9b5f6509e20dd62b158debfbef376fe /tmp/t1.xlsx
c9b5f6509e20dd62b158debfbef376fe /tmp/t2.xlsx
但如果我在写之间 sleep :
unlink("/tmp/t1.xlsx") # remove previous
unlink("/tmp/t2.xlsx")
write.xlsx(mtcars, "/tmp/t1.xlsx");Sys.sleep(2);write.xlsx(mtcars, "/tmp/t2.xlsx")
它完全不同:
$ md5sum /tmp/t?.xlsx
460945a610df3bc8a1ccdae9eb86c1fa /tmp/t1.xlsx
a4865be49994092173792c9f7354e435 /tmp/t2.xlsx
我的用例是一个生成 XLSX 文件的进程,该文件将进入 git 存储库。如果我自动执行此操作,则 XLSX 文件每次都会更改,即使源数据没有更改。我想可以测试数据是否在流程的早期发生了变化,而不是生成一个新的 XLSX 文件,但让 git 做“这改变了吗?”似乎更容易。测试,但 XLSX 中明显不可见的元数据打破了这一点。叫我懒惰。
可以设置 XLSX 元数据来防止这种情况吗?我想也许那里有一个“创作日期”。我不在乎这是否一直是 1970-01-01。
先发制人的防御:不,我不能使用 CSV,XLSX 有多个工作表,这就是我的最终用户想要的。是的,我也已经将它写入 SQlite 数据库,并且在向其写入相同数据时是相同的。
我认为 openxlsx 无法做到这一点照原样,因为差异是由于创建了元数据 XML: https://github.com/ycphs/openxlsx/blob/7742063a4473879490d789c552bb8e6cc9a0d2c7/R/baseXML.R#L77将当前 Sys.time() 放在哪里进入 created field 。
似乎有两个差异来源。首先,将 Excel 元数据写入 <dcterms:created>。 MS Excel 文档结构中的元数据。但即使设置相同(通过猴子补丁 openxlsx )仍然会产生差异,因为文档是使用标准 ZIP 格式捆绑的,并且还具有日期戳 header 。
这是两个解压缩的 XLSX 文件,它显示了所有相同的 CRC-32 值,因此其中的文件是相同的:
Archive:  test1.xlsx
Length Method Size Cmpr Date Time CRC-32 Name
-------- ------ ------- ---- ---------- ----- -------- ----
587 Defl:N 234 60% 2022-01-31 15:22 b5dbec60 _rels/.rels
1402 Defl:N 362 74% 2022-01-31 15:22 63422601 [Content_Types].xml
284 Defl:N 173 39% 2022-01-31 15:22 f9153db0 docProps/app.xml
552 Defl:N 278 50% 2022-01-31 15:22 37126cbe docProps/core.xml
696 Defl:N 229 67% 2022-01-31 15:22 14a147d3 xl/_rels/workbook.xml.rels
4500 Defl:N 311 93% 2022-01-31 15:22 285db1ad xl/printerSettings/printerSettings1.bin
601 Defl:N 203 66% 2022-01-31 15:22 211e1d6e xl/sharedStrings.xml
1127 Defl:N 464 59% 2022-01-31 15:22 0d8ee71d xl/styles.xml
7075 Defl:N 1361 81% 2022-01-31 15:22 050f988c xl/theme/theme1.xml
950 Defl:N 382 60% 2022-01-31 15:22 1b8cce29 xl/workbook.xml
612 Defl:N 223 64% 2022-01-31 15:22 f0584777 xl/worksheets/_rels/sheet1.xml.rels
12729 Defl:N 2204 83% 2022-01-31 15:22 18057777 xl/worksheets/sheet1.xml
-------- ------- --- -------
31115 6424 79% 12 files
$ unzip -v test2.xlsx
Archive: test2.xlsx
Length Method Size Cmpr Date Time CRC-32 Name
-------- ------ ------- ---- ---------- ----- -------- ----
587 Defl:N 234 60% 2022-01-31 15:22 b5dbec60 _rels/.rels
1402 Defl:N 362 74% 2022-01-31 15:22 63422601 [Content_Types].xml
284 Defl:N 173 39% 2022-01-31 15:22 f9153db0 docProps/app.xml
552 Defl:N 278 50% 2022-01-31 15:22 37126cbe docProps/core.xml
696 Defl:N 229 67% 2022-01-31 15:22 14a147d3 xl/_rels/workbook.xml.rels
4500 Defl:N 311 93% 2022-01-31 15:22 285db1ad xl/printerSettings/printerSettings1.bin
601 Defl:N 203 66% 2022-01-31 15:22 211e1d6e xl/sharedStrings.xml
1127 Defl:N 464 59% 2022-01-31 15:22 0d8ee71d xl/styles.xml
7075 Defl:N 1361 81% 2022-01-31 15:22 050f988c xl/theme/theme1.xml
950 Defl:N 382 60% 2022-01-31 15:22 1b8cce29 xl/workbook.xml
612 Defl:N 223 64% 2022-01-31 15:22 f0584777 xl/worksheets/_rels/sheet1.xml.rels
12729 Defl:N 2204 83% 2022-01-31 15:22 18057777 xl/worksheets/sheet1.xml
但文件仍然不同:
$ md5sum test1.xlsx test2.xlsx 
27783e8b19631039a1c940db214f25e1 test1.xlsx
ba0678946aea1e01093ce25130b2c467 test2.xlsx
由于 ZIP 元数据,可以通过 exiftool 看到:
$ exiftool test*.xlsx | grep Zip | grep Date
Zip Modify Date : 2022:01:31 15:22:52
Zip Modify Date : 2022:01:31 15:22:54

最佳答案

一种可能的解决方法是重新定义 genBaseCore openxlsx中的函数命名空间使用 assignInNamespace .
在下面的示例中,xlsx文件是 created前一天Sys.time() :

library(openxlsx)

genBaseCore <- function(creator = "", title = NULL, subject = NULL, category = NULL) {

replaceIllegalCharacters <- function(v){

vEnc <- Encoding(v)
v <- as.character(v)

flg <- vEnc != "UTF-8"
if(any(flg))
v[flg] <- iconv(v[flg], from = "", to = "UTF-8")

v <- gsub('&', "&amp;", v, fixed = TRUE)
v <- gsub('"', "&quot;", v, fixed = TRUE)
v <- gsub("'", "&apos;", v, fixed = TRUE)
v <- gsub('<', "&lt;", v, fixed = TRUE)
v <- gsub('>', "&gt;", v, fixed = TRUE)

## Escape sequences
v <- gsub("\a", "", v, fixed = TRUE)
v <- gsub("\b", "", v, fixed = TRUE)
v <- gsub("\v", "", v, fixed = TRUE)
v <- gsub("\f", "", v, fixed = TRUE)

return(v)
}

core <- '<coreProperties xmlns="http://schemas.openxmlformats.org/package/2006/metadata/core-properties" xmlns:cp="http://schemas.openxmlformats.org/package/2006/metadata/core-properties" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">'

core <- stringi:::stri_c(core, sprintf("<dc:creator>%s</dc:creator>", replaceIllegalCharacters(creator)))
core <- stringi:::stri_c(core, sprintf("<cp:lastModifiedBy>%s</cp:lastModifiedBy>", replaceIllegalCharacters(creator)))

# Modify creation date here
core <- stringi:::stri_c(core, sprintf('<dcterms:created xsi:type="dcterms:W3CDTF">%s</dcterms:created>', format(Sys.time()-86400, "%Y-%m-%dT%H:%M:%SZ")))

if (!is.null(title)) {
core <- stringi:::stri_c(core, sprintf("<dc:title>%s</dc:title>", replaceIllegalCharacters(title)))
}

if (!is.null(subject)) {
core <- stringi:::stri_c(core, sprintf("<dc:subject>%s</dc:subject>", replaceIllegalCharacters(subject)))
}

if (!is.null(category)) {
core <- stringi:::stri_c(core, sprintf("<cp:category>%s</cp:category>", replaceIllegalCharacters(category)))
}

core <- stringi:::stri_c(core, "</coreProperties>")

return(core)
}


assignInNamespace("genBaseCore", genBaseCore, ns="openxlsx")

write.xlsx(mtcars, "test.xlsx")
<Created>2022-01-30T15:13:27Z</Created>

关于r - 我可以从 R 中的同一数据帧中写入相同的 xlsx 文件吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70926250/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com