python - 使用 selenium 和 google colab 抓取 youtube 评论很慢-6ren

python - 使用 selenium 和 google colab 抓取 youtube 评论很慢

转载作者：行者123 更新时间：2023-12-03 06:05:59

30

4

我正在使用 selenium 和 google Colab 从 YouTube 上抓取视频评论。无论是 1000 条评论还是 38 条评论，整个抓取过程大约需要一个小时。我可以做些什么来改进我的代码以提高处理速度？谢谢!
感谢以下有助于构建代码的资源。
1:https://colab.research.google.com/drive/1GFJKhpOju_WLAgiVPCzCGTBVGMkyAjtk#scrollTo=4Ylzd_l6fXGv
2:https://www.tfzx.net/article/2719742.html
3:https://towardsdatascience.com/web-scraping-using-selenium-python-8a60f4cf40ab
输出#1:

Completed scraping 1000 comments in 3089.1585 seconds from YouTube Entertainment Tonight channel.

输出#2:

Completed scraping 38 comments in 3011.5525 seconds from YouTube Anne Schmidt channel.

输入:

!apt-get update
!apt install chromium-chromedriver
%pip install selenium
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
import sys
sys.path.insert(0,'/usr/lib/chromium-browser/chromedriver')
from selenium import webdriver
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
wd = webdriver.Chrome('chromedriver',options=chrome_options)
import time
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd
import time

def scrapecomments(url):
  tic = time.perf_counter()
  wait = WebDriverWait(wd,15)
  wd.get(url)
  data1=[]
  data2=[]
  data3=[]
  for item in range(200): 
          wait.until(EC.visibility_of_element_located((By.TAG_NAME,                "body"))).send_keys(Keys.END)
          time.sleep(15)
  for author in wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "#author-text"))):
    if len(data1) == 1000:
      break
    else:
      data1.append(author.text)
  for comment in wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "#content-text"))):
          data2.append(comment.text)
  for likes in wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "#vote-count-middle"))):
          data3.append(likes.text)

  def merge(list1, list2, list3):
    merged_list = [(list1[i], list2[i], list3[i]) for i in range(0, len(list1))] 
    return merged_list
  
  alldata = merge(data1,data2,data3)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            
  comments = pd.DataFrame(alldata,columns=['user_id','comment','likes'])
  comments['rank'] = comments.reset_index().index +1
  channel_name = wd.find_element_by_id('channel-name').text
  comments['source'] = channel_name
  toc = time.perf_counter()
  print(f"Completed scraping {len(data1)} comments in {toc - tic:0.4f} seconds from YouTube {channel_name} channel.")
  return comments

最佳答案

也可能是您每次运行代码时都在安装 chromedriver 和 selenium

关于python - 使用 selenium 和 google colab 抓取 youtube 评论很慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63608189/

30

4

0

文章推荐：尝试在 Vagrant 中下载依赖项时出现 Gradle 错误

文章推荐： javascript - 重构具有相同原型(prototype)属性的对象

文章推荐： javascript - Django 欧芹 : uncaught error

文章推荐： gradle - 无法在策展人框架2.9.1中解析org.apache.zookeeper

Django 评论，将符号附加到 url 评论？
我正在使用评论系统，现在，我想重写 url 评论的片段并附加一个符号#，我想将页面部分移动到评论列表，正好是最后一个评论用户，带有 username 我在发表评论时使用 next 重定向用户: {
android - 请求用户对 Android Market 进行评分/评论/评论
这个问题在这里已经有了答案: "Rate This App"-link in Google Play store app on the phone (21 个回答) 关闭2年前。有没有一种方法可以要
facebook - 通过 Graph API 评论 Facebook 页面评级(评论)
长期潜伏者第一次海报... 我们正在使用 Facebook 的 API 将其集成到我们的网络应用程序中，并且我们能够通过 {page-id}/ratings 部分中的 {open_graph_stor
javascript - 如何让 VS2012 自动格式化 Javascript 评论 block ，如 C# 评论
我正在尝试让 Visual Studio 2012 自动格式化我的评论 block ，就像它对我的 C# block 所做的那样。我希望我的评论看起来像这样: /* * Here is my C#
MySQL 评论
在 MySQl 中创建表时对每个字段进行注释是否会影响性能？我正在处理一个包含 1000 多个表的数据库，几乎每个表中的每个字段都有注释。我只是想知道这是否会以任何方式影响 MySQL 的性能？最佳
Gerrit & Phabricator 评论
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
mysql - 从应用程序中选择最新的注释/评论
这个问题在这里已经有了答案: SQL select only rows with max value on a column [duplicate] (27 个答案) 关闭 5 年前。我这里有 2
html - 评论 : How to comment -- or -->
如何在评论中正确编写 --> 或 -->？我正在维护一个包含许多小程序代码条目的大型 html 文件。说: a --> b. 我在 HTML 中将其编码为 -->: a --> b. 但是，我
Android -- 如何从应用内向市场发布应用评级/评论？
这是一个简单的问题。有没有办法允许用户直接在我的应用程序中输入评论和/或评级，并将这些数据发回 Android Market？如果是这样，如果我使用 EditText View 允许用户输入，代码会是
java - 注释=评论？
注释是否表示代码中带有//或/* */的注释？最佳答案不，注释不是评论。使用语法 @Annotation 将注释添加到字段、类或方法。最著名的注解之一是@Override，用于表示方法正在覆盖父类
python - Django 评论
我有一个包含两个模型的 Django 应用程序:第一个是 django.contrib.auth.User，第二个是我创建的 Product。我会为每个产品添加评论，因此每个注册用户都可以为每个产品
评论中的 HTML 评论？
有没有办法评论多行......其中已经有一些评论？即 ... Hello world! Multi-line comment end --> 看来连
ruby koans 评论
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: obj.nil? vs. obj == nil 现在通过 ruby koans 工作，发现这个评论嵌入在
ruby - .gemrc 评论？
这是一个基本问题 .gemrc 文件中是否允许注释？如果是，你会怎么做？我这里查了没用 docs.rubygems.org/read/chapter/11 最佳答案文档说:The config
css - 如何进行 sass-only 评论
有没有办法在 SASS 中添加 sass-only 注释？你知道，所以输出 .css 文件没有那些注释例如， /* global variables */ $mainColor: #666; /*
perl - 如何搜索包含特定关键字的 Instagram 评论
我想搜索在任何媒体上发布的评论中的任何特定关键字或几个关键字的组合。我的要求是在 API 的帮助下获取包含该关键字的评论。我浏览了 Instagram API 的文档，发现只能通过哈希标签进行搜索，而
php - 如何在页面呈现之前编辑 WordPress 评论？
在 WordPress 中，您可以在页面加载之前执行以下操作来编辑文章的内容: add_filter('the_content', 'edit_content'); function edit_con
tfs - 合并 - checkin 评论
在指示要合并的内容时， checkin 合并的最佳方法是什么？我已经说过 10 个变更集我正在从我的主分支合并到一个发布分支。每一个都包含我在 checkin 主分支时写的详细注释。现在，当我合并时，
facebook - 如何获得Facebook分享，评论，例如youtube视频计数？
我知道如何查询常规网站的社交参与度计数。可以使用Facebook图形浏览器(https://developers.facebook.com/tools/explorer/)或throug api轻松实
php - 如何获得特定的 YouTube 评论？
我正在尝试从 YouTube 视频中获得特定评论。例如，我想从 YouTube 视频的第 34 条评论中获取详细信息。有谁知道在不阅读所有评论列表的情况下我该怎么做？或者，如果没有任何解决方案可以仅

首页

博学

6Ren·AI

商城

python - 使用 selenium 和 google colab 抓取 youtube 评论很慢