Python网页解析利器BeautifulSoup安装使用介绍-6ren

Python网页解析利器BeautifulSoup安装使用介绍

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Python网页解析利器BeautifulSoup安装使用介绍由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

python解析网页，无出BeautifulSoup左右，此是序言。

安装。

BeautifulSoup4以后的安装需要用eazy_install，如果不需要最新的功能，安装版本3就够了，千万别以为老版本就怎么怎么不好，想当初也是千万人在用的啊。安装很简单。

复制代码代码如下:

 
 $ wget "http://www.crummy.com/software/BeautifulSoup/download/3.x/BeautifulSoup-3.2.1.tar.gz"   
 
 $ tar zxvf BeautifulSoup-3.2.1.tar.gz

然后把里面的BeautifulSoup.py这个文件放到你python安装目录下的site-packages目录下。

。

site-packages是存放Python第三方包的地方，至于这个目录在什么地方呢，每个系统不一样，可以用下面的方式找一下，基本上都能找到。

复制代码代码如下:

 
 $ sudo find / -name "site-packages" -maxdepth 5 -type d   
 
 $ find ~ -name "site-packages" -maxdepth 5

当然如果没有root权限就查找当前用户的根目录。

复制代码代码如下:

$ find ~ -name "site-packages" -maxdepth 5 -type d

如果你用的是Mac，哈哈，你有福了，我可以直接告诉你，Mac的这个目录在/Library/Python/下，这个下面可能会有多个版本的目录，没关系，放在最新的一个版本下的site-packages就行了。使用之前先import一下。

复制代码代码如下:

from BeautifulSoup import BeautifulSoup

。

使用。

在使用之前我们先来看一个实例现在给你这样一个页面。

复制代码代码如下:

http://movie.douban.com/tag/%E5%96%9C%E5%89%A7

它是豆瓣电影分类下的喜剧电影，如果让你找出里面评分最高的100部，该怎么做呢好了，我先晒一下我做的，鉴于本人在CSS方面处于小白阶段以及天生没有美术细菌，界面做的也就将就能看下，别吐。

。

Python网页解析利器BeautifulSoup安装使用介绍

接下来我们开始学习BeautifulSoup的一些基本方法，做出上面那个页面就易如反掌了。

鉴于豆瓣那个页面比较复杂，我们先以一个简单样例来举例，假设我们处理如下的网页代码。

复制代码代码如下:

 
 <html>   
 
 <head><title>Page title</title></head>   
 
 <body>   
 
     <p id="firstpara" align="center">   
 
     This is paragraph   
 
         <b>   
 
         one   
 
         </b>   
 
         .   
 
     </p>   
 
     <p id="secondpara" align="blah">   
 
     This is paragraph   
 
         <b>   
 
         two   
 
         </b>   
 
         .   
 
     </p>   
 
 </body>   
 
 </html>

你没看错，这就是官方文档里的一个样例，如果你有耐心，看官方文档就足够了，后面的你都不用看 http://www.leeon.me/upload/other/beautifulsoup-documentation-zh.html 。

。

初始化。

首先将上面的HTML代码赋给一个变量html如下，为了方便大家复制这里贴的是不带回车的，上面带回车的代码可以让大家看清楚HTML结构。

复制代码代码如下:

 
 
 html = '<html><head><title>Page title</title></head><body><p id="firstpara" align="center">This is paragraph<b>one</b>.</p><p id="secondpara" align="blah">This is paragraph<b>two</b>.</p></body></html>'   

初始化如下:

复制代码代码如下:

soup = BeautifulSoup(html)

我们知道HTML代码可以看成一棵树，这个操作等于是把HTML代码解析成一种树型的数据结构并存储在soup中，注意这个数据结构的根节点不是<html>，而是soup，其中html标签是soup的唯一子节点，不信你试试下面的操作。

复制代码代码如下:

 
 print soup   
 
 print soup.contents[0]   
 
 print soup.contents[1]

前两个输出结果是一致的，就是整个html文档，第三条输出报错IndexError: list index out of range 。

。

查找节点。

查找节点有两种反回形式，一种是返回单个节点，一种是返回节点list，对应的查找函数分别为find和findAll 。

单个节点。

1.根据节点名。

复制代码代码如下:

 
 ## 查找head节点   
 
 print soup.find('head') ## 输出为<head><title>Page title</title></head>   
 
 ## or   
 
 ## head = soup.head

。

这种方式查找到的是待查找节点最近的节点，比如这里待查找节点是soup，这里找到的是离soup最近的一个head（如果有多个的话）。

2.根据属性。

复制代码代码如下:

 
 ## 查找id属性为firstpara的节点   
 
 print soup.find(attrs={'id':'firstpara'})     
 
 ## 输出为<p id="firstpara" align="center">This is paragraph<b>one</b>.</p>   
 
 ## 也可节点名和属性进行组合   
 
 print soup.find('p', attrs={'id':'firstpara'})  ## 输出同上

。

3.根据节点关系。

节点关系无非就是兄弟节点，父子节点这样的。

复制代码代码如下:

 
 p1 = soup.find(attrs={'id':'firstpara'}) ## 得到第一个p节点   
 
 print p1.nextSibling ## 下一个兄弟节点   
 
 ## 输出<p id="secondpara" align="blah">This is paragraph<b>two</b>.</p>   
 
 p2 = soup.find(attrs={'id':'secondpara'}) ## 得到第二个p节点   
 
 print p2.previousSibling ## 上一个兄弟节点   
 
 ## 输出<p id="firstpara" align="center">This is paragraph<b>one</b>.</p>   
 
 print p2.parent ## 父节点，输出太长这里省略部分 <body>...</body>   
 
 print p2.contents[0] ## 第一个子节点，输出u'This is paragraph'

。

多个节点。

将上面介绍的find改为findAll即可返回查找到的节点列表，所需参数都是一致的。

1.根据节点名。

复制代码代码如下:

 
 ## 查找所有p节点   
 
 soup.findAll('p')

2.根据属性查找。

复制代码代码如下:

 
 ## 查找id=firstpara的所有节点   
 
 soup.findAll(attrs={'id':'firstpara'})

。

需要注意的是，虽然在这个例子中只找到一个节点，但返回的仍是一个列表对象。

上面的这些基本查找功能已经可以应付大多数情况，如果需要各个高级的查找，比如正则式，可以去看官方文档。

获取文本。

getText方法可以获取节点下的所有文本，其中可以传递一个字符参数，用来分割每个各节点之间的文本。

复制代码代码如下:

 
 ## 获取head节点下的文本   
 
 soup.head.getText()         ## u'Page title'   
 
 ## or   
 
 soup.head.text   
 
 ## 获取body下的所有文本并以\n分割   
 
 soup.body.getText('\n')     ## u'This is paragraph\none\n.\nThis is paragraph\ntwo\n.'

。

实战。

有了这些功能，文章开头给出的那个Demo就好做了，我们再来回顾下豆瓣的这个页面 http://movie.douban.com/tag/%E5%96%9C%E5%89%A7 如果要得到评分前100的所有电影，对这个页面需要提取两个信息：1、翻页链接；2、每部电影的信息（外链，图片，评分、简介、标题等）当我们提取到所有电影的信息后再按评分进行排序，选出最高的即可，这里贴出翻页提取和电影信息提取的代码。

复制代码代码如下:

 
 ## filename: Grab.py   
 
 from BeautifulSoup import BeautifulSoup, Tag   
 
 import urllib2   
 
 import re   
 
 from Log import LOG   
 
 def LOG(*argv):   
 
     sys.stderr.write(*argv)   
 
     sys.stderr.write('\n')   
 
 class Grab():   
 
     url = ''   
 
     soup = None   
 
     def GetPage(self, url):   
 
         if url.find('http://',0,7) != 0:   
 
             url = 'http://' + url   
 
         self.url = url   
 
         LOG('input url is: %s' % self.url)   
 
         req = urllib2.Request(url, headers={'User-Agent' : "Magic Browser"})   
 
         try:   
 
             page = urllib2.urlopen(req)   
 
         except:   
 
             return   
 
         return page.read()     
 
     def ExtractInfo(self,buf):   
 
         if not self.soup:   
 
             try:   
 
                 self.soup = BeautifulSoup(buf)   
 
             except:   
 
                 LOG('soup failed in ExtractInfo :%s' % self.url)   
 
             return   
 
         try:   
 
             items = self.soup.findAll(attrs={'class':'item'})   
 
         except:   
 
             LOG('failed on find items:%s' % self.url)   
 
             return   
 
         links = []   
 
         objs = []    
 
         titles = []   
 
         scores = []   
 
         comments = []   
 
         intros = []   
 
         for item in items:   
 
             try:   
 
                 pic = item.find(attrs={'class':'nbg'})   
 
                 link = pic['href']   
 
                 obj = pic.img['src']   
 
                 info = item.find(attrs={'class':'pl2'})   
 
                 style="margin: 3px auto 0px; padding: 0px 3px; outline: none; line-height: 25.2px; font-size: 14px; background: rgb(242, 246, 251); width: 640px; clear: both; border-top: 1px solid rgb(0, 153, 204); border-right: 1px solid rgb(0, 153, 204); border-left: 1px solid rgb(0, 153, 204); border-image: initial; border-bottom: none; font-family: tahoma, arial, "Microsoft YaHei";"> 
 复制代码代码如下:

 
 ## filename: test.py   
 
 #encoding: utf-8   
 
 from Grab import Grab   
 
 import sys   
 
 reload(sys)   
 
 sys.setdefaultencoding('utf-8')   
 
 grab = Grab()   
 
 buf = grab.GetPage('http://movie.douban.com/tag/喜剧?start=160&type=T')   
 
 if not buf:   
 
         print 'GetPage failed!'   
 
         sys.exit()   
 
 links, objs, titles, scores, comments, intros = grab.ExtractInfo(buf)   
 
 for link, obj, title, score, comment, intro in zip(links, objs, titles, scores, comments, intros):   
 
         print link+'\t'+obj+'\t'+title+'\t'+score+'\t'+comment+'\t'+intro   
 
 pageturning = grab.ExtractPageTurning(buf)   
 
 for link in pageturning:   
 
         print link   
 
 grab.Destroy()

。

OK，完成这一步接下来的事儿就自个看着办吧本文只是介绍了BeautifulSoup的皮毛而已，目的是为了让大家快速学会一些基本要领，想当初我要用什么功能都是去BeautifulSoup的源代码里一个函数一个函数看然后才会的，一把辛酸泪啊，所以希望后来者能够通过更便捷的方式去掌握一些基本功能，也不枉我一字一句敲出这篇文章，尤其是这些代码的排版，真是伤透了脑筋. 。

最后此篇关于Python网页解析利器BeautifulSoup安装使用介绍的文章就讲到这里了,如果你想了解更多关于Python网页解析利器BeautifulSoup安装使用介绍的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： python常规方法实现数组的全排列

文章推荐： python标准算法实现数组全排列的方法

文章推荐： python回溯法实现数组全排列输出实例分析

文章推荐：使用Python实现下载网易云音乐的高清MV

在VBS中定义字节数组Byte()介绍
晚上在 QQ 上看到昵称为“乱码”的好友回答了搜搜问问里一个问题：在VBS中有办法定义字节数组么？在VBS中有办法定义字节数组么？就是字节子类型数组（VarType是8209的那种）注意不是V
PHP对象Object的概念介绍
例如，员工管理应用程序可能包括一个EmPloyee 类。然后可以用这个类来创建和维护特定实例，比如Gonn和Sally。根据预定义的类创建对象常称为类的实例化（class insta
PHP抽象类介绍
在自然语言中，我们理解抽象的概念是，一个物体的一种大的描述，这种描述对某类物体来说是共有的特性。那么在PHP中也是一样的，我们把一个类进行抽象，可以指明类的一般行为，这个类应该是一个模板，它指示它的
DBA_2PC_PENDING 介绍
DBA_2PC_PENDING Oracle会自动处理分布事务，保证分布事务的一致性，所有站点全部提交或全部回滚。一般情况下，处理过程在很短的时间内完成，根本无法察觉到。但是，如果在commit或
主成分分析(PCA)介绍
目录计算过程投影分量计算假设你有一家理发店,已经记录了过去一年中所有顾客的头发长度和发型偏好的数据。现在你想从这些数据中提取一些主要的信息,比如顾客最常
Object.defineProperty 介绍
Object.defineProperty函数会直接在一个对象上定义一个新的属性，或者修改一个对象的现有属性，并返回此对象。一、简单使用 const obj = {} Object.defineP
SPL-介绍(一)
SPL官网 http://www.scudata.com.cn/ 介绍业务逻辑经常包含较复杂的流程和计算，同时涉及数据库的读写。由于授权麻烦、影响数据库安全、无法迁移、技术要求高、编写困难等原因，很
SPL-介绍(一)
SPL官网 http://www.scudata.com.cn/ 介绍业务逻辑经常包含较复杂的流程和计算，同时涉及数据库的读写。由于授权麻烦、影响数据库安全、无法迁移、技术要求高、编写困难等原因，很
Apache Thrift 介绍
一点睛 Thrift 是一歀基于 CS 架构的 RPC 框架，最初由 Facebook 研发，2008 年转入 Apache 组织。开发人员可以使用 Thrift 提供的 IDL（接口定义语言）来定
01、MariaDB 介绍
数据库应用程序与主应用程序分开存在，并存储数据集合。每个数据库都使用一个或多个API来创建，访问，管理，搜索和复制其包含的数据。数据库还使用非关系数据源，例如对象或文件。然而，数据库证明是大数
01、Ant 介绍
介绍 Ant是一个 Apache 基金会下的跨平台的基于 Java 语言开发的构件工具。在我们详细了解 Apache Ant 之前，让我们来讲解为什么构建工具是需要最先了解的。构建工具的需求
ocaml - Camel 介绍
我现在正在尝试学习ocaml，并希望从一个小程序开始，生成所有位组合: [“0”，“0”，“0”] [“0”，“0”，“1”] [“0”，“1”，“0”] ... 等等我的想法是下面的代码: let
C 介绍 - 如何在函数中通过引用传递参数？
我正在做我的介绍 C 类(class)作业，我的任务是执行以下任务...... 为一个函数编写代码，该函数通过值接收两个参数(a 和 b)并通过引用具有另外两个参数(c 和 d)。所有参数都是双倍的。
html - 为网站制作弹出式演示/介绍
我希望提供有关我网站内容的快速演示，以及如何在用户访问我的页面后立即以正确的方式使用它们。我希望使用顶部的弹出式窗口进行演示。我的意思是小信息框，一个接一个地通知用户各个步骤。任何人都可以帮助我如何
JavaScript中的逻辑判断符、||与!介绍
与C、Java等语言一样，JavaScript中可以用&&、||、!三个逻辑判断符来对boolean值进行逻辑判断。与C、Java不同的是，JavaScript中逻辑与(&&
JavaScript中的操作符==与===介绍
JavaScript中，==与===操作符均可用于判断两个值是否相等；不同之处在于，如果进行判断的两个值类型不一致，===操作符会直接返回false，而==操作符则会在类型转换后再进行判断。详细的判
JavaScript中的object转换函数toString()与valueOf()介绍
JavaScript中，object转换为boolean的操作非常简单：所有的object转换成boolean后均为true；即使是new Boolean(false)这样的object在转换为bo
Android开发笔记之:返回键的复写onBackPressed()介绍
在android开发中，当不满足触发条件就按返回键的时候，就要对此进行检测。尤其是当前Activity需要往前一个Activity传送消息时。即Activity1跳转到Activity3如果采用的是
Java 开发环境配置步骤(介绍)
背景当要求系统启动一个应用程序时，系统会先查找当前命令是否是内部命令，若不是，则在当前目录下查找，如果仍没有找到，则在系统变量 Path 指定的路径去查找。JDK（Java Developmen
PHP超全局数组(Superglobals)介绍
概述想做一个微信的公众平台，阅读了微信官方给的网址接入的示例代码，发现有个问题好像一直都是半知半解的，就是在类里边直接使用$_GET。仔细查了下关于这方面的知识，发现PHP中这部分的基础知识掌握

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Python网页解析利器BeautifulSoup安装使用介绍