gpt4 book ai didi

python - 解析 HTML 文件,然后在 python 中编辑它们

转载 作者:太空宇宙 更新时间:2023-11-03 18:52:02 24 4
gpt4 key购买 nike

所以我的问题是我想要一个只有一个 navbar.html 文件的网站。我可以用它添加到我网站的其他页面。我想出了最好的方法来做到这一点没有JavaScript,我试图避免,因为兼容性问题(学校网站,所以我试图获得最好的兼容性)。我正在为我的学校编写这个网站,所以我不知道从现在开始它会发生什么,但我想创建一个自动化系统,可以解析 html 文件的文件夹,然后进入每个文件夹并找到 <nav id="mainNav">.....</nav>然后将这两个标签之间的所有内容替换为一个中央 navbar.html 中的内容,以便有人可以直接更改 navbar.html 然后运行此脚本,它就会自动更新网页。

现在我不会要求任何人为我编写代码,我对 python 有基本到中级的了解,所以如果有人能给我指出正确的方向,比如可能的方法是什么。感谢您的帮助。

编辑:我只想使用标准库,以便尽可能轻松地移动,最好只是一个 *.py 文件

编辑:请不要告诉我去获取一个工具,我做不到,因为服务器没有任何服务器端编程语言,我能做的最好的就是编辑本地文件,然后将静态页面上传到服务器。

编辑:修复它,使其符合主题。希望如此。

最佳答案

我看到很多人批评你正在尝试做的事情,我将加入他们的行列。这是实现导航栏的可怕方式,也是“更新”网站的可怕程序调用。我会非常坚定地告诉你们学校,这不是一个明智的决定,最终会浪费更多的时间以这种过时的方式来做这件事,而不是像 PHP 或 Python 这样的免费替代方案。

话虽如此,我也会帮助解决你的问题,因为(根据你的推荐和回复)实现模板引擎或动态网页内容超出了你的控制范围,因此不是一个选择。一种方法可能是将导航栏替换脚本(我们称之为 script.py)放在 HTML 目录的顶部,并位于新的 navbar.html 文件旁边。

首先获取文件,使用os.walk查找子目录中的所有文件:

import os

for root, dirs, files in os.walk(os.join(os.getcwd(), "html_dir"):
for file in files:
# do something with the directories
for dir in dirs:
# do something with the directories

显然,您需要进行递归,以便它适用于所有子文件夹中的所有 HTML 文件。

接下来,就替换而言,我建议阅读整个 navbar.html 文件,其中包含简单的内容,例如:

with open('file', 'r') as target_file:
replacement_text = target_file.read()

要进行实际的替换,我建议使用正则表达式。正则表达式会根据内容而变化,并且可能需要根据所使用的具体数据进行调整。如果这些数据发生变化,它们也很容易崩溃。

import re 

new_html = re.sub(r'<nav id="mainNav">.*?</nav>', replacement_text, original_text)

您需要将所有内容拼凑在一起,并自己使其发挥作用,但我认为这是解决此问题的可靠方法。然而,我重申:一想到有人最终会使用这种方法更新他们的网站,我就不寒而栗。另外,每次运行此程序时都要备份文件,因为它失败可能会导致意外替换/删除文本。

关于python - 解析 HTML 文件,然后在 python 中编辑它们,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18128214/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com