gpt4 book ai didi

html - 网页抓取:网页抓取的对象与网站上的信息不匹配并导致 RStudio 崩溃

转载 作者:行者123 更新时间:2023-12-04 03:52:44 24 4
gpt4 key购买 nike

<分区>

我收集了一系列类似this one的网址.对于每个 URL,我使用 rvest将与网页每个框中列出的每个从业者的地址相关的网络抓取信息打包。通过检查网页的 HTML 结构,我可以注意到我要检索的信息存在于名为 unit size1of2 的 HTML 部分中。 (通过将光标悬停显示为 div.unit.size1of2 )。然后,我使用以下代码提取了我需要的信息:

library(rvest)
library(xlm2)

webpage <- read_html(x = "myURL")

webpage_name <- webpage %>%
html_nodes("div.unit.size1of2") %>%
html_text(trim = T)

但是,当我提取信息时,得到的结果非常困惑。首先,有些信息我不想抓取,其中一些似乎甚至没有出现在网站上。此外,我的 RStudio IDE 会卡住一段时间,每次我尝试输出结果时,之后都无法使用任何命令正常工作。最后,结果不是我要找的。

您认为这是由于网站上存在某种保护措施造成的吗?

感谢您的帮助!

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com