gpt4 book ai didi

R {xml_node} 到纯文本同时保留标签?

转载 作者:行者123 更新时间:2023-12-03 16:14:20 25 4
gpt4 key购买 nike

我想做什么xml2::xml_text()rvest::html_text()做但保留标签而不是替换例如<br>\n .目标是例如抓取网页,提取我想要的节点,并将纯 HTML 存储在一个变量中,很像 write_html()将它存储在一个文件中。

我怎样才能做到这一点?

最佳答案

具有讽刺意味的是,事实证明 as.character()工作得很好。

所以:

library(rvest)
html <- read_html("http://stackoverflow.com")

res <– html %>%
html_node("h1") %>%
as.character()

> res

[1] "<h1 class=\"-title\">Learn, Share, Build</h1>"

这是我当前用例中所需的输出。

另一方面,为了比较是否需要剥离标签:
res <- html %>%
html_node("h1") %>%
html_text()

> res
[1] "Learn, Share, Build"

关于R {xml_node} 到纯文本同时保留标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52338052/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com