gpt4 book ai didi

python - 使用 htmlparse 替换 html 文件中的图像和 css 源 url(python)

转载 作者:行者123 更新时间:2023-11-28 18:53:49 25 4
gpt4 key购买 nike

我正在尝试编写一个脚本来下载网页,包括所有图像和样式表 - 即本地托管版本看起来与原始版本相同。

最初我只是下载图像,但现在我意识到我必须(当然)编辑 html 源,以便 img src 实际上指向本地托管的图像。因为无论如何我都必须更改 html 源,所以我决定最好只更新本地托管的文件以指向远程托管的图像和样式表。

所以这让我想到了我的问题,我可以使用 htmlparse 来搜索样式表和图像标签,然后用更新版本替换指向它们的链接吗?

我看过 htmlparse 文档,但我对 python 还是很陌生,所以有些部分不清楚。我认为可以使用:

HTMLParser.handle_data(data)
This method is called to process arbitrary data. It is intended to be overridden by a
derived class; the base class implementation does nothing.

并向其中添加我自己的替换类?还是我完全走错了路?

当然,另一种选择是使用正则表达式来搜索标签并替换它们之后的文本,但这可能会变得非常复杂,所以我想知道 htmlparse 是否会提供更简单的解决方案。

我知道 beautiful soup 是理想的解决方案,但我会在我的公司分发完成的工具,所以很遗憾我不能使用任何第三方模块。同样,我希望该工具独立于平台,所以不幸的是不能使用 wget。

感谢任何输入 =)

最佳答案

如果将 Python 程序打包为独立的二进制文件(甚至不需要 Python 运行时),则可以随心所欲地使用任何模块:http://www.pyinstaller.org/

关于python - 使用 htmlparse 替换 html 文件中的图像和 css 源 url(python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7446550/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com