gpt4 book ai didi

python - 只从 HTML 文件中获取脚本

转载 作者:行者123 更新时间:2023-11-30 22:33:29 26 4
gpt4 key购买 nike

我有一个很大的 html 文件,其中包含网站的完整代码。我只关心<script>...<script/>里面的代码。有没有一种方法可以轻松地从 html 文件中取出这些行?或者我是否必须将文件按 <script> 分割?我想忽略第一个 <script> 之前的部分(如头部),我需要忽略文件末尾以及中间的标签,例如从 <head> 切换的位置至<body> .

最佳答案

如果你想删除所有脚本标签:

from bs4 import BeautifulSoup
pagehtml = '''
<li> Text 1 </li>
<script>
<li> Text 2 </li>
<li> Text 3 </li>
</script>
<li> Text 4 </li>
<script>
<li> Text 5 </li>
</script>
'''
soup = BeautifulSoup(pagehtml, 'html.parser')
[s.extract() for s in soup.findAll('script')]
<小时/>
>>> soup

<li> Text 1 </li>

<li> Text 4 </li>

>>>

关于python - 只从 HTML 文件中获取脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45149279/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com