gpt4 book ai didi

r - 名称不符合 XML 命名空间

转载 作者:行者123 更新时间:2023-12-04 13:42:14 24 4
gpt4 key购买 nike

我正在尝试阅读此网站上的表格:

http://spacefem.com/pregnant/due.php?use=EDD&m=09&d=10&y=16

我使用rvest,但很快就报错了:

library(rvest)
read_html("http://spacefem.com/pregnant/due.php?use=EDD&m=09&d=10&y=16")

Error: Name spoiler:3tbt4d3m is not XML Namespace compliant [202]

这个错误是什么意思,我能做些什么来解决这个问题?

我已经查明了导致错误的内部函数:xml2:::doc_parse_raw。然而,xml2:::doc_parse_raw 只是对内部 C 代码的调用,这使得调试此问题变得更加困难。

最佳答案

另一种选择是使用 htmltidy(需要使用 v0.3.0 或更高版本,这意味着——截至本回答日期——使用开发版本与 CRAN 版本,直到 CRAN 达到 0.3。 0+) “清理”文档:

library(rvest)
library(htmltidy) # devtools::install_github("hrbrmstr/htmltidy")
library(httr)

URL <- "http://spacefem.com/pregnant/due.php?use=EDD&m=09&d=10&y=16"

# the site was not returning content for me w/o a more browser-like user agent

res <- GET(URL, user_agent("Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36"))

cleaned <- tidy_html(content(res, as="text", encoding="UTF-8"),
list(TidyDocType="html5"))

pg <- read_html(cleaned)

关于r - 名称不符合 XML 命名空间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39281889/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com