gpt4 book ai didi

python 爬取马蜂窝景点翻页文字评论的实现

转载 作者:qq735679552 更新时间:2022-09-29 22:32:09 26 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章python 爬取马蜂窝景点翻页文字评论的实现由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

使用Chrome、python3.7、requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/poi/5426285.html).

首先,我们复制一段评论,查看网页源代码,按Ctrl+F查找,发现没有找到评论,说明评论内容不在http://www.mafengwo.cn/poi/5426285.html页面.

python 爬取马蜂窝景点翻页文字评论的实现

回到页面,划到评论列表,右键检查,选择Network,然后点击后一页翻页,观察Network里的变化,我们要爬的文件就在下面的某个文件里(主要找XHR和JS两个模块)。选择Preview可以更好的让我们寻找我们想要的文件,然后选择Headers找到我们要爬的url.

python 爬取马蜂窝景点翻页文字评论的实现

python 爬取马蜂窝景点翻页文字评论的实现

经过分析我们找到要爬取的url是http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18102698237405245767_1579401525334&params=%7B%22poi_id%22%3A%225426285%22%2C%22page%22%3A2%2C%22just_comment%22%3A1%7D&_ts=1579402072160&sn=20e98d65a0&=1579402072161 然而点进去是这样的 。

python 爬取马蜂窝景点翻页文字评论的实现

这个时候对比一下这两个页面的Request Headers,发现原页面多了个Refer参数 。

原页面 。

python 爬取马蜂窝景点翻页文字评论的实现

python 爬取马蜂窝景点翻页文字评论的实现

然后看一下请求get请求需要的参数Query String Parameters,其中poi_id是景点id,page是评论页面(翻页只用改变page的值就行).

python 爬取马蜂窝景点翻页文字评论的实现

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
import re
import time
import requests
#评论内容所在的url,?后面是get请求需要的参数内容
comment_url = 'http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?'
 
requests_headers = {
   'Referer' : 'http://www.mafengwo.cn/poi/5426285.html' ,
   'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
} #请求头
 
for num in range ( 1 , 6 ):
   requests_data = {
     'params' : '{"poi_id":"5426285","page":"%d","just_comment":1}' % (num)  #经过测试只需要用params参数就能爬取内容
     }
   response = requests.get(url = comment_url,headers = requests_headers,params = requests_data)
   if 200 = = response.status_code:
     page = response.content.decode( 'unicode-escape' , 'ignore' ).encode( 'utf-8' , 'ignore' ).decode( 'utf-8' ) #爬取页面并且解码
     page = page.replace( '\\/' , '/' ) #将\/转换成/
     #日期列表
     date_pattern = r '<a class="btn-comment _j_comment" id="codetool">

结果 。

python 爬取马蜂窝景点翻页文字评论的实现

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我.

原文链接:https://blog.csdn.net/qq_45373920/article/details/104037607 。

  • 马蜂窝
  • 评论
  • Python
  • 爬取
  • 延伸 · 阅读

    • 2020-04-08python机器学习库xgboost的使用
    • 2020-04-08python爬取本站电子书信息并入库的实现代码
    • 2020-04-07举例分析Python中设计模式之外观模式的运用
    • 2020-04-05Python实现FLV视频拼接功能
    • 2020-04-05python同义词替换的实现(jieba分词)
    • 2020-04-05TIOBE 4月榜单出炉:Python进前三,少儿编程语言
    精彩推荐
    • Pythonpython处理csv数据的方法

      python处理csv数据的方法

      这篇文章主要介绍了python处理csv数据的方法,实例分析了Python处理csv数据的技巧,需要的朋友可以参考下... 。

      kirkversion1 292 2019-11-27
    • Python使用tensorboard可视化loss和acc的实例

      使用tensorboard可视化loss和acc的实例

      今天小编就为大家分享一篇使用tensorboard可视化loss和acc的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧... 。

      正在努力学习的大金 134 2020-04-03
    • PythonTensorFlow实现打印每一层的输出

      TensorFlow实现打印每一层的输出

      今天小编就为大家分享一篇TensorFlow实现打印每一层的输出,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧... 。

      Kluiverthoo 300 2020-04-03
    • Pythonpython提取内容关键词的方法

      python提取内容关键词的方法

      这篇文章主要介绍了python提取内容关键词的方法,适用于英文关键词的提取,非常具有实用价值,需要的朋友可以参考下... 。

      上大王 347 2019-12-03
    • PythonPython比较两个图片相似度的方法

      Python比较两个图片相似度的方法

      这篇文章主要介绍了Python比较两个图片相似度的方法,涉及Python操作pil模块实现图片比较的技巧,具有一定参考借鉴价值,需要的朋友可以参考下... 。

      pythoner 295 2019-11-28
    • PythonPython实现将n个点均匀地分布在球面上的方法

      Python实现将n个点均匀地分布在球面上的方法

      这篇文章主要介绍了Python实现将n个点均匀地分布在球面上的方法,涉及Python绘图的技巧与相关数学函数的调用,具有一定参考借鉴价值,需要的朋友可以参考下... 。

      redraiment 320 2019-11-27
    • Pythondjango 文件上传功能的相关实例代码(简单易懂)

      django 文件上传功能的相关实例代码(简单易懂)

      这篇文章主要介绍了django 文件上传功能的相关实例代码,代码简单易懂,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下... 。

      二十七º 393 2020-04-02
    • Pythontensorflow-gpu安装的常见问题及解决方案

      tensorflow-gpu安装的常见问题及解决方案

      这篇文章主要介绍了tensorflow-gpu安装的常见问题及解决方案,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下吧,需要的朋友可以... 。

      上山老人 197 2020-04-08

    最后此篇关于python 爬取马蜂窝景点翻页文字评论的实现的文章就讲到这里了,如果你想了解更多关于python 爬取马蜂窝景点翻页文字评论的实现的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com