python - 使用 BeautifulSoup 抓取 Pantip 论坛-6ren

python - 使用 BeautifulSoup 抓取 Pantip 论坛

转载作者：太空宇宙更新时间：2023-11-03 16:03:59

27

4

我正在尝试从 http://pantip.com/tag/Isuzu 抓取一些论坛帖子

其中一个页面是http://pantip.com/topic/35647305

我想将每个帖子文本及其作者和时间戳放入 csv 文件中。

我正在使用 Beautiful Soup，但不可否认，我是 python 和网络抓取的初学者。我现在拥有的代码获取了必填字段，但仅限于第一篇文章。我需要该线程上所有帖子的信息。我尝试了soup.find_all()和soup.select()，但没有得到想要的结果。

这是我正在使用的代码:

from bs4 import BeautifulSoup
import urllib2 

print "Reading URL..."
url = urllib2.urlopen("http://pantip.com/topic/35647305")
content = url.read()
soup = BeautifulSoup(content, "html.parser")

print "Finding desired HTML..."
table = soup.select("abbr.timeago")

print "\nScraped HTML is:"
print table

text = BeautifulSoup(str(table).strip(),"html.parser").get_text().encode("utf-8").replace("\n", "")
print "\nScraped text is:\n" + text

任何有关我做错了什么的线索将不胜感激。此外，欢迎提出有关如何以更好、更清洁的方式完成此操作的任何建议。

如前所述，我是初学者，所以请不要介意任何愚蠢的错误。 :-)

谢谢!

最佳答案

评论是使用 Ajax 请求呈现的:

import requests
from bs4 import BeautifulSoup

params = {"tid": "35647305", # in the url
          "type": "3"}

with requests.Session() as s:    
    s.headers.update({"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36",
                         "X-Requested-With": "XMLHttpRequest"})
    r = (s.get("http://pantip.com/forum/topic/render_comments", params=params))
    data = r.json() # data["comments"] contains what you want

这将为您提供所有数据。因此，您需要的只是从每个 url 传递 tid 并更新 params 字典中的 tid。

关于python - 使用 BeautifulSoup 抓取 Pantip 论坛，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40040427/

27

4

0

文章推荐： php - 支付 Paypal 付款时会发生操作

文章推荐： ruby - 如何阻止ruby exec命令

文章推荐： PayPal Pro NVP API 错误本地化

文章推荐： c# - 为动态添加的控件添加 EventHandler

php - 论坛 - 按上次事件在多个页面上排序的主题
我目前正在使用 php 和 sql 创建一个论坛。我的问题是如何将主题按正确的顺序排列，假设每页总共有 200 和 15 个主题，而我在第 10 页上。我无法选择每个 ID，因为如果有人将时间戳发布
qt - Qt相关的一些好的博客/论坛/站点有哪些？
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想要改善这个问题吗？更新问题，以便将其作为on-topi
php - 论坛，获取最后的帖子/主题
基本上，我正在为 Intranet 编写一个小型论坛脚本。我有 3 个用于论坛的 mysql (MySQLi) 表: forum_answer - 保存回复forum_quest - 持有第一个帖子
python - NoReverseMatch 在/论坛/
我正在尝试实现 django-registration-redux 并使用了由 Andres 编写的模板，网址为 https://github.com/macdhuibh/django-registr
php - SQL 获取帖子的最新评论日期 - 论坛
我正在开发一个讨论论坛网站。当您打开论坛时，网络服务会获取所有活跃的帖子。标题、评论数、近期事件(最新评论的日期)、发布者、状态。除最近的事件外，我能够获取上述所有数据。 SELECT `po
php - 如何以编程方式登录到 phpBB 论坛？
我有一个使用 phpBB 的论坛。现在我想从源代码做这样的事情: 登录(“用户”，“密码”) 如何在 phpBB 中执行此操作？最佳答案首先你需要为 phpBB 引导: define('IN_PH
php - 检测提交文本中使用的字母表(论坛/博客)
我想知道检测人们在我的论坛上提交帖子时使用的字母表的最佳方法(对博客也很有用)。事情是最近我收到了很多西里尔字母、希腊字母和日语的垃圾邮件，所以由于我的论坛是为讲法语和英语的人准备的，所以我想防止垃圾
java - 以编程方式搜索博客、论坛、新闻站点
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
mysql - 几年前创建了这个 vBulletin 论坛，现在它向我发送垃圾邮件错误
所以我几年前创建了这个 vBulletin 论坛，几个月前它开始时不时地通过电子邮件向我发送错误消息。由于我在创建网站时注册为论坛管理员，现在当出现错误时它会向我发送电子邮件。网站所有者和我聚在一起，
php - 安全、社区驱动的 mysql 论坛？
我很难在不同的 php 论坛之间进行选择。我正在寻找一个轻量级、安全且易于定制的论坛。谷歌搜索给我提供了几十个由个人制作的“简单的 php 论坛”，但我正在寻找一个基于社区的论坛。因为，你知道，帮助
python - Python 和 GAE 论坛
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 12 年前。 Improve thi
php - 在大型 PHP 框架之一之上编写的论坛/论坛
我一直在寻找新的论坛软件(线程)或公告板(平面/分区)。我想知道是否有基于大型 PHP 框架之一的实现(CodeIgniter、Kohana、Yii、CakePHP、ZF、Seagull、Fusebo
c# - ASP.NET MVC 论坛？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
ruby - 网络上最活跃的 Ruby 论坛/博客是什么？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
PHP 论坛 - 如何处理未读的讨论/主题/帖子
我知道这个问题已经在这里问过几次了，但没有一个答案让我满意。这是因为几乎所有这些都涉及与数据库相关的巨大读/写过程，我想不惜一切代价避免。关于未读的讨论/主题/帖子，有很多事情要考虑。不知道MyBB
php - 最容易配置为在现有 CMS 中工作的 PHP 论坛？
我被指派在我们已经使用了一段时间的内部 CMS 中添加一个论坛。该系统有自己的登录/用户系统和已建立的用户数据库。理想情况下，我会寻找最简单的论坛软件来转换为与我们的系统一起使用，但如果有必要，可以重
api - 有 MSDN 论坛 API 吗？
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
javascript - 按 Enter 提交 jQuery 论坛
我的表单有一个不寻常的问题(这里是精简版): (function($){ $("form").submit(function(){ alert('Ch
java - 使用 Java 登录 vbulletin 论坛
作为我论文论文的一部分，我构建了一个“机器人”，它会抓取 C 语言编程类(class)的官方论坛并搜索常见问题以便发布回复。我现在必须模拟登录才能发布适当的回复。登录表单如下: !-- 登录表单 --
python - 登录到 phpBB 论坛。 Cookie 已更改
我正在尝试创建一个在后台运行的小脚本，并检查论坛上是否有新消息(使用 phpBB3)。由于许多子论坛需要登录用户的权限才能查看，因此我创建了一个脚本，该脚本会向服务器发送后请求以先登录。该脚本目前已

首页

博学

6Ren·AI

商城

python - 使用 BeautifulSoup 抓取 Pantip 论坛