gpt4 book ai didi

python - 在python中捕获特定标签之间的数据

转载 作者:行者123 更新时间:2023-11-30 23:04:53 27 4
gpt4 key购买 nike

我正在 python 中获取 url 内容...我想捕获 <h1> 之间的所有内容和</h1> .

我尝试的是:

myString='''<h1>kgkgjgjgkjgkjgkj</h1>
<h1>kdfgggggggggggggggggggkgjgjgkjgkjgkj</h1>
dsfgdfgg
<h1>kgkgjgjgkdfgdfgdgdfjgkjgkj</h1>
dfgdffdgf
<h1>kgkgjgjsdssssssssssssssssssssgkjgkjgkj</h1>
dfgdfgdg
<h1>kgkgjgjgkjgkjgkgggggggggggggggggggj</h1>
'''
if '<h1>' in myString:
startString='<h1>'
endString='</h1>'
print myString[myString.find(startString)+len(startString):myString.find(endString)]

我有多个h1标签。但它捕获第一个 h1 标签之间的数据。

如何捕获所有 h1 之间的数据标签?

最佳答案

我会选择 Beautifulsoup——我的尝试

from bs4 import BeautifulSoup
import requests

url = 'http://accessibility.psu.edu/headingshtml/'

respons = requests.get(url).content

soup = BeautifulSoup(respons,'lxml')

h1tags = soup.find_all('h1')

for singleTag in h1tags:
print singleTag.text

打印(在本例中只有一个 h1 标签)

Heading Tags (H1, H2, H3, P) in HTML

关于python - 在python中捕获特定标签之间的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33462566/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com