gpt4 book ai didi

Python,使用正则表达式在文件中搜索html标签

转载 作者:太空宇宙 更新时间:2023-11-04 14:07:15 25 4
gpt4 key购买 nike

所以我正在做一些数据分析,我需要从数百个 HTML 和 SHTML 文件中提取页面标题、面包屑、h1 标签。

这些标签采用以下格式(表示内部的内容和面包屑):

<title>Mapping a Drive: Macintosh OSX &lt; Mapping a Drive &lt; eHelp &lt; Cal Poly Pomona</title>

<p><!-- InstanceBeginEditable name="breadcrumb" --><a href="../index.html">eHelp</a> &raquo; <a href="index.shtml">Mapping a Drive</a> &raquo; Mac OS X<!-- InstanceEndEditable --></p>


<h1><a name="contentstart" id="contentstart"></a><!-- InstanceBeginEditable name="page_heading" --><a name="top" id="top"></a>Mapping a Drive:<span class="goldletter"> Macintosh </span>OS X <!-- InstanceEndEditable --></h1>

获得这些标签后,我想进一步提取标题的第一部分 Mapping a Drive: Macintosh OSX,面包屑的最后部分 Mac OS X 和whole h1 映射驱动器:Macintosh OSX

知道如何实现吗?

最佳答案

使用真正的 HTML 解析器,而不是正则表达式。你会更快乐。 lxml.htmlBeautifulSoup 都受到高度重视。

关于Python,使用正则表达式在文件中搜索html标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7408539/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com