gpt4 book ai didi

Python lxml库的简单介绍及基本使用讲解

转载 作者:qq735679552 更新时间:2022-09-29 22:32:09 34 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Python lxml库的简单介绍及基本使用讲解由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

1.lxml库介绍

lxml是xml和html的解析器,其主要功能是解析和提取xml和html中的数据;lxml和正则一样,也是用c语言实现的,是一款高性能的python html、xml解析器,也可以利用xpath语法,来定位特定的元素及节点信息 。

html是超文本标记语言,主要用于显示数据,他的焦点是数据的外观 xml是可扩展标记语言,主要用于传输和存储数据,他的焦点是数据的内容 。

2.安装lxml方法

方法1: 在cmd运行窗口中输入:pip install lxml 。

Python lxml库的简单介绍及基本使用讲解

方法2: 在pycharm中下载 file–setting–project–project interpreter–点击右上角的“+”— 第1步 。

Python lxml库的简单介绍及基本使用讲解

第2步 。

Python lxml库的简单介绍及基本使用讲解

第3步 。

Python lxml库的简单介绍及基本使用讲解

方法3: 进入这个网站进行下载:https://lxml.de/index.html 。

Python lxml库的简单介绍及基本使用讲解

3.基本使用

我们可以利用他解析html代码,并且在解析html代码的时候,如果html代码不规范或者不完整,lxml解析器会自动修复或补全代码,从而提高效率 。

实例1: 解析html代码块 。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
#提取html中的数据
from lxml import etree
 
text = '''
<html>
     <div class="clearfix">
     <div class="nav_com">
      <ul>
        <li class="active"><a href="/" rel="external nofollow" >推荐</a></li>
        <li class=""><a href="/nav/python" rel="external nofollow" >python</a></li>
        <li class=""><a href="/nav/java" rel="external nofollow" >java</a></li>
        <li class=""><a href="/nav/web" rel="external nofollow" >前端</a></li>
        <li class=""><a href="/nav/arch" rel="external nofollow" >架构</a></li>
        <li class=""><a href="/nav/db" rel="external nofollow" >数据库</a></li>
        <li class=""><a href="/nav/5g" rel="external nofollow" >5g</a></li>
        <li class=""><a href="/nav/game" rel="external nofollow" >游戏开发</a></li>
        <li class=""><a href="/nav/mobile" rel="external nofollow" >移动开发</a></li>
        <li class=""><a href="/nav/ops" rel="external nofollow" >运维</a></li>
      </ul>
     </div>
     </div>
</html>>
</html>>
 
'''
#将字符串解析为html文档
html = etree.html(text)
#print(html)
#将字符串序列化为html
result = etree.tostring(html).decode( 'utf-8' )
print (result)

实例2: 读取并解析html文件 。

?
1
2
3
4
5
6
7
#将html文件进行解析
from lxml import etree
#将html文件进行读取
html = etree.parse( 'data.html' )
#将html内容序列化
result = etree.tostring(html).decode( 'utf-8' )
print (result)

到此这篇关于python lxml库的简单介绍及基本使用讲解的文章就介绍到这了,更多相关python lxml库使用内容请搜索我以前的文章或继续浏览下面的相关文章希望大家以后多多支持我! 。

原文链接:https://blog.csdn.net/pinuscembra/article/details/107453807 。

最后此篇关于Python lxml库的简单介绍及基本使用讲解的文章就讲到这里了,如果你想了解更多关于Python lxml库的简单介绍及基本使用讲解的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com