python - 使用 beautifulsoup 抓取 Reddit 上的嵌套评论-6ren

python - 使用 beautifulsoup 抓取 Reddit 上的嵌套评论

转载作者：太空宇宙更新时间：2023-11-03 13:59:07

26

4

此代码获取页面。我的问题是我需要抓取用户评论的内容而不是评论的数量。它嵌套在评论数部分内，但我不确定如何访问该链接并解析和抓取用户评论。

request_list = []
id_list = [0]

for i in range(0,200,25): 
    response = requests.get("https://www.reddit.com/r/CryptoCurrency/?count="+str(i)+"&after="+str(id_list[-1]), headers = {'User-agent':'No Bot'})  
    soup = BeautifulSoup(response.content, 'lxml') 
    request_list.append(soup)
    id_list.append(soup.find_all('div', attrs={'data-type': 'link'})[-1]['data-fullname'])
    print(i, id_list)
    if i%100 == 0: 
        time.sleep(1)

下面的代码我尝试编写一个应该访问嵌套注释的函数，但我不知道。

def extract_comment_contents(request_list):    
    comment_contents_list = []   
    for i in request_list:
        if response.status_code == 200: 
            for each in i.find_all('a', attrs={'data-inbound-url': '/r/CryptoCurrency/comments/'}): 
                comment_contents_list.append(each.text)
        else:
            print("Call failed at request ", i)           
    return comment_contents_list



fetch_comment_contents_list = extract_comment_contents(request_list)

print(fetch_comment_contents_list)

最佳答案

对于每个线程，您需要发送另一个请求来获取评论页面。评论页面的 URL 可以使用 soup.find_all('a', class_='bylink comments may-blank') 找到。这将给出评论页面的所有 a 标签。我将向您展示一个进入评论页面的示例。

r = requests.get('https://www.reddit.com/r/CryptoCurrency/?count=0&after=0')
soup = BeautifulSoup(r.text, 'lxml')

for comments_tag in soup.find_all('a', class_='bylink comments may-blank', href=True):
    url = comments_tag['href']
    r2 = requests.get(url)
    soup = BeautifulSoup(r2.text, 'lxml')
    # Your job is to parse this soup object and get all the comments.

关于python - 使用 beautifulsoup 抓取 Reddit 上的嵌套评论，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49389636/

26

4

0

文章推荐： python - 如何将此生成器函数转换为 lambda 表达式

文章推荐： c# - 全局缓存对象不断添加项目

文章推荐： c# - EF 4.3.1 如何使用每种类型的表映射子类

Django 评论，将符号附加到 url 评论？
我正在使用评论系统，现在，我想重写 url 评论的片段并附加一个符号#，我想将页面部分移动到评论列表，正好是最后一个评论用户，带有 username 我在发表评论时使用 next 重定向用户: {
android - 请求用户对 Android Market 进行评分/评论/评论
这个问题在这里已经有了答案: "Rate This App"-link in Google Play store app on the phone (21 个回答) 关闭2年前。有没有一种方法可以要
facebook - 通过 Graph API 评论 Facebook 页面评级(评论)
长期潜伏者第一次海报... 我们正在使用 Facebook 的 API 将其集成到我们的网络应用程序中，并且我们能够通过 {page-id}/ratings 部分中的 {open_graph_stor
javascript - 如何让 VS2012 自动格式化 Javascript 评论 block ，如 C# 评论
我正在尝试让 Visual Studio 2012 自动格式化我的评论 block ，就像它对我的 C# block 所做的那样。我希望我的评论看起来像这样: /* * Here is my C#
MySQL 评论
在 MySQl 中创建表时对每个字段进行注释是否会影响性能？我正在处理一个包含 1000 多个表的数据库，几乎每个表中的每个字段都有注释。我只是想知道这是否会以任何方式影响 MySQL 的性能？最佳
Gerrit & Phabricator 评论
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
mysql - 从应用程序中选择最新的注释/评论
这个问题在这里已经有了答案: SQL select only rows with max value on a column [duplicate] (27 个答案) 关闭 5 年前。我这里有 2
html - 评论 : How to comment -- or -->
如何在评论中正确编写 --> 或 -->？我正在维护一个包含许多小程序代码条目的大型 html 文件。说: a --> b. 我在 HTML 中将其编码为 -->: a --> b. 但是，我
Android -- 如何从应用内向市场发布应用评级/评论？
这是一个简单的问题。有没有办法允许用户直接在我的应用程序中输入评论和/或评级，并将这些数据发回 Android Market？如果是这样，如果我使用 EditText View 允许用户输入，代码会是
java - 注释=评论？
注释是否表示代码中带有//或/* */的注释？最佳答案不，注释不是评论。使用语法 @Annotation 将注释添加到字段、类或方法。最著名的注解之一是@Override，用于表示方法正在覆盖父类
python - Django 评论
我有一个包含两个模型的 Django 应用程序:第一个是 django.contrib.auth.User，第二个是我创建的 Product。我会为每个产品添加评论，因此每个注册用户都可以为每个产品
评论中的 HTML 评论？
有没有办法评论多行......其中已经有一些评论？即 ... Hello world! Multi-line comment end --> 看来连
ruby koans 评论
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: obj.nil? vs. obj == nil 现在通过 ruby koans 工作，发现这个评论嵌入在
ruby - .gemrc 评论？
这是一个基本问题 .gemrc 文件中是否允许注释？如果是，你会怎么做？我这里查了没用 docs.rubygems.org/read/chapter/11 最佳答案文档说:The config
css - 如何进行 sass-only 评论
有没有办法在 SASS 中添加 sass-only 注释？你知道，所以输出 .css 文件没有那些注释例如， /* global variables */ $mainColor: #666; /*
perl - 如何搜索包含特定关键字的 Instagram 评论
我想搜索在任何媒体上发布的评论中的任何特定关键字或几个关键字的组合。我的要求是在 API 的帮助下获取包含该关键字的评论。我浏览了 Instagram API 的文档，发现只能通过哈希标签进行搜索，而
php - 如何在页面呈现之前编辑 WordPress 评论？
在 WordPress 中，您可以在页面加载之前执行以下操作来编辑文章的内容: add_filter('the_content', 'edit_content'); function edit_con
tfs - 合并 - checkin 评论
在指示要合并的内容时， checkin 合并的最佳方法是什么？我已经说过 10 个变更集我正在从我的主分支合并到一个发布分支。每一个都包含我在 checkin 主分支时写的详细注释。现在，当我合并时，
facebook - 如何获得Facebook分享，评论，例如youtube视频计数？
我知道如何查询常规网站的社交参与度计数。可以使用Facebook图形浏览器(https://developers.facebook.com/tools/explorer/)或throug api轻松实
php - 如何获得特定的 YouTube 评论？
我正在尝试从 YouTube 视频中获得特定评论。例如，我想从 YouTube 视频的第 34 条评论中获取详细信息。有谁知道在不阅读所有评论列表的情况下我该怎么做？或者，如果没有任何解决方案可以仅

首页

博学

6Ren·AI

商城

python - 使用 beautifulsoup 抓取 Reddit 上的嵌套评论