html - 网页抓取:网页抓取的对象与网站上的信息不匹配并导致 RStudio 崩溃-6ren

html - 网页抓取:网页抓取的对象与网站上的信息不匹配并导致 RStudio 崩溃

转载作者：行者123 更新时间：2023-12-04 03:52:44

24

4

<分区>

我收集了一系列类似this one的网址.对于每个 URL，我使用 rvest将与网页每个框中列出的每个从业者的地址相关的网络抓取信息打包。通过检查网页的 HTML 结构，我可以注意到我要检索的信息存在于名为 unit size1of2 的 HTML 部分中。 (通过将光标悬停显示为 div.unit.size1of2 )。然后，我使用以下代码提取了我需要的信息:

library(rvest)
library(xlm2)

webpage <- read_html(x = "myURL")

webpage_name <- webpage %>%
  html_nodes("div.unit.size1of2") %>%
  html_text(trim = T)

但是，当我提取信息时，得到的结果非常困惑。首先，有些信息我不想抓取，其中一些似乎甚至没有出现在网站上。此外，我的 RStudio IDE 会卡住一段时间，每次我尝试输出结果时，之后都无法使用任何命令正常工作。最后，结果不是我要找的。

您认为这是由于网站上存在某种保护措施造成的吗？

感谢您的帮助!

24

4

0

文章推荐： graphql - Apollo GraphQL - 处理 onConnect 和 OnDisconnect 事件

文章推荐： c - gcov 不生成 gcda 文件

文章推荐： splunk - 在 Splunk 查询中对 "earliest"使用亚秒精度

从阵列转换导致某些 MCU 崩溃，但不会导致其他 MCU 崩溃
我有一段代码看起来像这样: void update_clock(uint8_t *time_array) { time_t time = *((time_t *) &time_array[0]
IOS 崩溃 - 崩溃 EXC_CRASH (SIGABRT) - 错误 109
应用程序崩溃了 :( 请帮助我.. 在这方面失败了。我找不到错误？该应用程序可以连接到 iTunesConnect 但它会出错。谁能根据下面的崩溃报告判断问题出在哪里？ share_with_app
崩溃，我带的实习生把图片直接存到了服务器上
小二是新来的实习生，作为技术 leader，我给他安排了一个非常简单的练手任务，把前端 markdown 编辑器里上传的图片保存到服务器端，结果他真的就把图片直接保存到了服务器上，这下可把我气坏了，就
检查输入字符串是否超过缓冲区限制(崩溃)
我正在创建一个函数，它将目录路径作为参数传递，或者如果它留空，则提示用户输入。我已经设置了我的 PATH_MAX=100 和 if 语句来检查 if ((strlen(folder path) +
FreeType FT_New_Memory_Face 崩溃
我已将“arial.ttf”文件(从我的/Windows/Fonts 文件夹中获取)加载到内存中，但是将其传递到 FT_New_Memory_Face 时会崩溃(在 FT_Open_Face 中的某处
FFmpeg RTSP 崩溃
我正在尝试在我的计算机上的两个控制台之间进行 rtsp 流。在控制台 1 上，我有: ffmpeg -rtbufsize 100M -re -f dshow -s 320x240 -i video=
c++ - SSL_set_tlsext_host_name 崩溃
我正在尝试使用 scio_beast在一个项目中。我知道它还没有完成，但这并不重要。我已经设法让它工作得很好。我现在正在尝试连接到 CloudFlare 后面的服务器，我知道我需要 SNI 才能工作
从下拉列表更改工作表时 VBA 崩溃
我有一个带有关联宏的下拉列表，如下所示: Sub Drop() If Range("Hidden1!A1") = "1" Then Sheets("Sheet1").Se
执行定义与现有命令相同的函数的脚本时，Bash 崩溃
我对 bash 很陌生。我要做的就是运行这个nvvp -vm /usr/lib64/jvm/jre-1.8.0/bin/java无需记住最后的路径。我认为 instafix 就是这样做...... n
增加系统规范时 Apache 崩溃
我在 Windows 上使用 XAMPP 已经两年左右了，它运行完美，没有崩溃没有问题。 (直到四个月前。) 大约四个月前，我们将服务器/系统升级到了更快的规范。这是旧规范的内容 - Windows
在某些后台应用程序中发生 Android 崩溃
我面临着一个非常烦人的 android 崩溃，它发生在大约 1% 的 PRODUCTION session 中，应用程序始终在后台运行。 Fatal Exception: android.app.Re
android - 华为云数据库创建对象类型()崩溃
尝试使用下面的函数: public void createObjectType() { try { mCloudDB.createObjectType(ObjectTypeIn
ColdFusion 11 崩溃
由于我正在进行的一个项目，我在 CF11 管理员中弄乱了类路径，我设法使服务器崩溃，以至于我唯一得到的是一个漂亮的蓝屏和 500 错误.我已经检查了日志，我会把我能做的贴在帖子的底部，但我希望有人会启
升级后 Metasploit 崩溃
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 10 个月前关闭。 Improve
iphone - NSPersistentStoreCoordinator 崩溃
我最近从 xcode 3.x 更新到 4.2，当我在 4.2 中运行应用程序时，我遇到了核心数据问题。我还更新到了 iOS 5，所以问题可能就在那里，我不太确定。这些应用程序在 3.x 中运行良好，
iphone - popToRootViewController 崩溃
我是一个相对较新的 iPhone 应用程序开发人员，所以我的知识有点粗略，所以如果这是一个微不足道的问题，请原谅我。我有一个导航应用程序，它通过在navigationController对象上调用p
iphone - MFMailComposeViewController 崩溃
if ([MFMailComposeViewController canSendMail]) { MFMailComposeViewController *mailViewController
iphone - UILocalNotification 崩溃
你能帮我吗？我正在设置 UILocalNotification，当我尝试设置其 userInfo 字典时，它崩溃了。 fetchedObjects 包含 88 个对象。这是代码: NSDi
iphone - NSFastEnumerationMutationHandler 崩溃
为什么我的代码中突然出现 NSFastEnumeration Mutation Handler 崩溃。我很茫然为什么会突然出现这个崩溃以及如何解决它。最佳答案崩溃错误: **** 由于未捕获的异常
iphone - deleteRowsAtIndexPaths 崩溃
当我从表中删除行时，我的应用程序崩溃了。这是我检测到错误和堆栈跟踪的来源。谢谢! //delete row from database - (void)tableView:(UITableView *

首页

博学

6Ren·AI

商城

html - 网页抓取:网页抓取的对象与网站上的信息不匹配并导致 RStudio 崩溃