gpt4 book ai didi

html - 解析 xml 属性 : strange Encoding issue

转载 作者:行者123 更新时间:2023-11-28 00:09:01 25 4
gpt4 key购买 nike

当我尝试解析 xml/html 文档的某个属性时,我遇到了一个奇怪的编码问题。这是一个可重现的例子,包含 2 个项目和 2 个标题(注意这里使用的是法语口音)

library(XML)
doc <- htmlParse('<note>
<item title="é">1</item>
<item title="ï">3</item>
</note>',asText=TRUE,encoding='UTF-8')

现在使用 xpathApply ,我可以像这样阅读我的项目。请注意,此处的特殊重音格式正确。

xpathApply(doc,'//item')

[[1]]
<item title="é">1</item>

[[2]]
<item title="ï">3</item>

但是当我尝试读取我的属性标题时,我得到了这个:

xpathApply(doc,'//item',xmlGetAttr,'title')
[[1]]
[1] "é"

[[2]]
[1] "ï"

我尝试了其他 xpath 版本,例如:

  xpathApply(doc,'//item/@title') 
xmlAttrs(xpathApply(doc,'//item')[[1]])

但这行不通。有什么帮助吗?

最佳答案

它不漂亮,我不能在这台 linux 机器上测试,但试试:

  xpathApply(doc,'//item',
function(x) iconv(xmlAttrs(x,'title'), "UTF-8", "UTF-8"))
[[1]]
title
"é"

[[2]]
title
"ï"

xmlAttrs 调用 RS_XML_xmlNodeAttributes 检查此代码,似乎没有处理编码的工具。 xmlValue 调用添加了编码的 R_xmlNodeValue。查看 ?xmlValue 我们有 encoding:与编码相关的实验性功能和参数。 也许以后会添加对属性的编码。

关于html - 解析 xml 属性 : strange Encoding issue,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16561702/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com