gpt4 book ai didi

python - 如何根据


标签的存在来分割 html 页面

转载 作者:行者123 更新时间:2023-12-01 05:39:37 25 4
gpt4 key购买 nike

我试图根据位置将抓取的网页分成不同的部分 <p> <br><div>标签。所以第一个<p>标签将包含 <html> 中的所有数据/标签到<p>有问题的标签。我已经看过 lxml 项目中的 etree 之类的东西,但它看起来无关紧要。

我从“正常”html 解析中看到的差异是所选标签的数量。我想选择多个标签及其数据并单独保存它们,而“普通”html 解析工具提供仅选择一个独立的标签(使用 xpath 等)并使用它的能力。 (我对网络编程也很陌生)。

我想到了一种方法,可以保存文件偏移量,然后继续剪切和切片输入文件以实现我的目标,但这充其量看起来很黑客。

我怎样才能实现我既定的目标,请帮忙。

谢谢。

最佳答案

使用BeautifulSoup 。它是一个很棒的用于解析 HTML 的 python 工具。

下面是一个示例,展示了解析 HTML 是多么容易 - 它打印标签名称 (p) 和所有 <p> 的内容。标签。然后它找到 id 为“header”的元素。

这只是一个片段 - BeautifulSoup 提供了多种过滤 HTML 文档的方法。

import sys
# add path to beautifulsoup library
sys.path.append('/usr/local/var/beautifulsoup')
# import it
from bs4 import BeautifulSoup

soup = BeautifulSoup(open("yourfile.html"))
for tag in soup.find_all('p'):
print tag.name, tag.text

soup.find(id="header")

关于python - 如何根据 <p> <div> 或 <br> 标签的存在来分割 html 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17944062/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com