gpt4 book ai didi

xml - 从文档中提取唯一的 HTML 标签

转载 作者:数据小太阳 更新时间:2023-10-29 02:04:49 26 4
gpt4 key购买 nike

我在 R 中有一个 HTML 文档,我想从该文档中提取唯一标签列表以及它们出现的频率。

我可以按如下方式遍历每个可能的标签,但希望有一个不需要预定义标签列表的解决方案:

library('XML')
url <- 'http://stackoverflow.com/questions/11227809/why-is-processing-a-sorted-array-faster-than-an-unsorted-array'
doc <- htmlParse(url)
all_tags <- c('//p', '//a', '//b', '//u', '//i')
counts <- sapply(all_tags, function(x) length(xpathSApply(doc, x)))
free(doc)

最佳答案

经典的 XML 包版本可能如下所示:

tab <- table(xpathSApply(doc, "//*", xmlName))
tab[c('p', 'a', 'b', 'u', 'i')]

关于xml - 从文档中提取唯一的 HTML 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32079861/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com