gpt4 book ai didi

python - 我如何/应该使用 Python 将 html 文档分成几个部分? (技术上和逻辑上)

转载 作者:行者123 更新时间:2023-12-01 06:13:23 24 4
gpt4 key购买 nike

我有一个 HTML 文档,我正在尝试将其分成单独的较小块。比如说,将每个 < h3 > header 转化为自己的单独文件,仅使用该 block 中编码的 HTML(以及 html、head、body、标签)。

我正在使用Python的Beautiful Soup,我对它很陌生,但似乎很容易用于完成这样的简单任务(有更好的建议,如lxml或Mini-dom吗?)。所以:

1) 我该如何“解析所有 < h3 > 并将每个文件变成一个单独的文档”?从指向正确方向的指针到代码片段再到在线文档(Soup 的发现很少),任何内容都将受到赞赏。

2)从逻辑上讲,找到标签是不够的 - 我需要物理上“剪切它”并将其放入一个单独的文件中(并将其从原始文件中删除)。也许解析文本行而不是节点会更容易(尽管 super 难看,从形成的结构中解析原始文本......?)

3)类似相关 - 假设我想从某种类型的所有标签中删除某个属性(例如,删除所有图像的对齐属性)。这看起来很容易,但我失败了 - 任何帮助将不胜感激!谢谢你的帮助!

最佳答案

是的,您使用BeautifulSoup或lxml。两者都有方法来查找要提取的节点。然后,您还可以从节点对象重新创建 HTML,从而将该 HTML 保存到新文件中。

关于python - 我如何/应该使用 Python 将 html 文档分成几个部分? (技术上和逻辑上),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4588345/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com