gpt4 book ai didi

html - 从 html 表中提取链接

转载 作者:太空狗 更新时间:2023-10-29 13:40:27 26 4
gpt4 key购买 nike

我正在尝试从以下网页中提取链接 http://ipt.humboldt.org.co/属于“标本”类型。我可以使用以下代码从网页中获取表格:

library(XML)
sitePage<-htmlParse("http://ipt.humboldt.org.co/")
tableNodes<-getNodeSet(sitePage,"//table")
siteTable<-readHTMLTable(tableNodes[[1]])

但是在我使用 readHTML 命令后链接丢失了。

最佳答案

它最终变成了一个复杂的 XPath 表达式:

library(XML)
sitePage<-htmlParse("http://ipt.humboldt.org.co/")
hyperlinksYouNeed<-getNodeSet(sitePage,"//table[@id='resourcestable']
//td[5][.='Specimen']
/preceding-sibling
::td[3]
/a
/@href")

但让我逐位解释 XPath 表达式:

  • //table[@id='resourcestable'] -> 这样我们就可以在名为“resourcestable”的页面上获取主表

  • //td[5][.='Specimen'] -> 现在我们只过滤那些类型为 Specimen 的行>

  • /preceding-sibling -> 现在我们开始回顾

  • ::td[3] -> 3 个步骤,从我们所在的位置向后精确计数。小心 preceding-sibling 开始倒数,因此 td[1] 是 Type 列,td[2] 是 Organisation 列,td[ 3] 是我们想要的名称列。

  • /a -> 现在获取包含的 a 节点

  • /@href -> 最后更精确的是 href 属性内容

关于html - 从 html 表中提取链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12290402/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com