- xml - AJAX/Jquery XML 解析
- 具有多重继承的 XML 模式
- .net - 枚举序列化 Json 与 XML
- XML 简单类型、简单内容、复杂类型、复杂内容
我有一个包含 XML 字符 header 和二进制数据的文件,然后使用 R 中的 readBin
读取该文件:
zz <- file('myfile', 'rb')
# Read header
x <- readBin(zz, 'character')
# Read binary data
...
但是,当 header 超过 10 000 字节时,我得到以下信息:
Warning message:
In readBin(zz, 'character') :
null terminator not found: breaking string at 10000 bytes
我尝试循环直到字符串匹配 header 的末尾,然后将字符串连接在一起,但随后 XML 无法验证,因为某些部分的结尾已损坏(例如 \xa0W\x97^\xff\177
加在最后)。
我应该如何处理 readBin
字符限制 - 是否有任何简单的解决方法?
欢迎任何类型的建议。谢谢!
更新
下面是一个可重现的例子:
url <- 'http://www.enetpulse.com/wp-content/uploads/sample_xml_feed_enetpulse_icehockey.xml'
x <- paste(readLines(url), collapse = '\n') # more than 10 000 bytes
f <- tempfile()
zz <- file(f, 'wb')
writeBin(x, zz) # header
writeBin(1:10000, zz) # data
close(zz)
# readBin
zz <- file(f, 'rb')
y <- readBin(zz, 'character')
# Warning message:
# In readBin(zz, "character") :
# null terminator not found: breaking string at 10000 bytes
y
# "... participantFK=\"98707\" [\x97^\xff\177"
close(zz)
# readChar
zz <- file(f, 'rb')
readChar(zz, nchars = 999999)
# Error in readChar(zz, nchars = 999999) :
# invalid UTF-8 input in readChar()
close(zz)
# readBin-loop
library(XML)
p <- xmlParse(x) # it works to parse the original xml
zz <- file(f, 'rb')
fun <- function(x) readBin(zz, 'character')
res <- paste(sapply(1:4, fun), collapse = '')
p2 <- xmlParse(res) # errors!
最佳答案
好的。这确实是一种困惑的文件格式。在这里,我提出了一种更传统的老式文件解析方式。基本上以字节形式读取所有内容,直到我们找到空终止符。当我们这样做时,我们获取所有这些字节,转换为字符,然后解析。然后在这个例子中,我将读取点倒回到二进制数据的开头,然后我也可以使用相同的连接读取它。
在您在上面的示例代码中编写测试文件后立即开始,我开始
block <- 256*4
zz <- file(f, 'rb')
rr <- raw()
found <- 0
while ( found==0 ) {
r <- readBin(zz, "raw", block)
if( length(w<-head(which(r==0),1)) ) {
rr <- c(rr, r[1:(w-1)])
found <- 1
seek(zz, -(block-w), origin="current") #rewind
} else {
rr <- c(rr, r)
}
}
library(XML)
p <- xmlParse(rawToChar(rr), asText=TRUE)
dd <- readBin(zz, "integer",10000)
close(zz)
然后恢复 p
中的 XML 文件和 dd
中的整数列表。
这是唯一可能的,因为你做了一个很好的可重现的例子。包含您尝试过的代码也非常好。干杯。
关于xml - R:readBin 字符限制(10 000 字节)的解决方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25099555/
@Cacheable在同一类中方法调用无效 上述图片中,同一个类中genLiveBullets()方法调用同类中的queryLiveByRoom()方法,这样即便标识了Cacheable标签,
目录 @Transaction注解导致动态切换更改数据库失效 使用场景 遇到问题 解决 @Transaction
@RequestBody不能class类型匹配 在首次第一次尝试使用@RequestBody注解 开始加载字符串使用post提交(貌似只能post),加Json数据格式传输的时候,
目录 @Autowired注入static接口问题 @Autowired自动注入普通service很方便 但是如果注入static修饰的serv
目录 @RequestBody部分属性丢失 问题描述 JavaBean实现 Controller实现
目录 解决@PathVariable参数接收不完整的问题 今天遇到的问题是: 解决办法: @PathVariable接受的参
这几天在项目里面发现我使用@Transactional注解事务之后,抛了异常居然不回滚。后来终于找到了原因。 如果你也出现了这种情况,可以从下面开始排查。 1、特性 先来了解一下@Trans
概述: ? 1
场景: 在处理定时任务时,由于这几个方法都是静态方法,在aop的切面中使用@Around注解,进行监控方法调用是否有异常。 发现aop没有生效。 代码如下:
最近做项目的时候 用户提出要上传大图片 一张图片有可能十几兆 本来用的第三方的上传控件 有限制图片上传大小的设置 以前设置的是2M&nb
我已经实现了这个SCIM reference code在我们的应用程序中。 我实现的代码确实通过了此postman link中存在的所有用户测试集合。 。我的 SCIM Api 也被 Azure 接受
我一直对“然后”不被等待的行为感到困扰,我明白其原因。然而,我仍然需要绕过它。这是我的用例。 doWork(family) { return doWork1(family)
我正在尝试查找 channel 中的消息是否仍然存在,但是,我不确定如何解决 promise ,查看其他答案和文档,我可以看到它可能是通过函数实现的,但我是不完全确定如何去做。我希望能在这方面获得一些
我有以下情况: 同一工作区中的 2 个 Eclipse 项目:Apa 和 Bepa(为简洁起见,使用化名)。 Apa 项目引用(包括)Bepa 项目。 我在 Bepa 有一个类 X,具有公共(publ
这个问题已经有答案了: Why am I getting a NoClassDefFoundError in Java? (31 个回答) 已关闭 6 年前。 我正在努力学习 spring。所以我输入
我正在写一个小游戏,屏幕上有许多圆圈在移动。 我在两个线程中管理圈子,如下所示: public void run() { int stepCount = 0; int dx;
我在使用 Sympy 求解方程时遇到问题。当我运行代码时,例如: 打印(校正(10)) 我希望它打印一个数字 f。相反,它给我错误:执行中止。 def correction(r): from
好吧,我制作的每个页面都有这个问题。我不确定我做错了什么,但我所有的页面都不适用于所有分辨率。可能是因为我使用的是宽屏?大声笑我不确定,但在小于宽屏分辨率的情况下,它永远不会看起来正确。它的某些部分你
我正在尝试像这样进行一个非常简单的文化 srting 检查 if(culture.ToUpper() == "ES-ES" || "IT-IT") { //do something } else
Closed. This question is off-topic. It is not currently accepting answers. Learn more。 想改进这个问题吗?Upda
我是一名优秀的程序员,十分优秀!