gpt4 book ai didi

regex - 带有xpath或regex的R中的Web抓取(可能)格式不正确的HTML

转载 作者:行者123 更新时间:2023-12-03 17:14:09 25 4
gpt4 key购买 nike

我正在尝试从此link中提取摘要。但是,我无法仅提取摘要的内容。到目前为止,这是我完成的工作:

url <- "http://www.scielo.br/scielo.php?script=sci_abstract&pid=S1981-38212013000100001&lng=en&nrm=iso&tlng=en"
textList <- readLines(url)
text <- textList[grep("Abstract[^\\:]", textList)] # get the correct element
text1 <- gsub("\\b(.*?)\\bISSN", "" , text)


到目前为止,我几乎满足了我的要求,但是后来我无法摆脱我不感兴趣的其余字符串。

我什至尝试了另一种使用xpath的方法,但是没有成功。我尝试了类似下面的代码,但是没有任何效果。

library(XML)
arg.xpath <-"//p/@xmlns"
doc <- htmlParse( url) # parseia url
linksAux <- xpathSApply(doc, arg.xpath)


我怎样才能用正则表达式或xpath或两者兼而有之?

ps .:我的总体目标是像我所提供的那样对几个类似的页面进行网络抓取。我可以提取链接。我现在只需要获取摘要。
免费(doc)

最佳答案

我强烈建议使用XML方法,因为带有HTML的正则表达式可能会让人头疼。我认为您的xpath表达式有点偏离。尝试

doc <- htmlParse(url)
xpathSApply(doc, "//p[@xmlns]", xmlValue)


返回(剪切长度)

[1] "HOLLANDA,  Cristina Buarque de. Human rights ..."                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 
[2] "This article is dedicated to recounting the main ..."
[3] "Keywords\n\t\t:\n\t\tHuman rights; transitional ..."
[4] ""

关于regex - 带有xpath或regex的R中的Web抓取(可能)格式不正确的HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24908740/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com