gpt4 book ai didi

Python:HTMLParser 如何处理来自子标签的数据

转载 作者:太空宇宙 更新时间:2023-11-03 15:02:00 24 4
gpt4 key购买 nike

因此,在我感兴趣的 URL 的 HTML 文档中,我想要在每个页面上显示的信息并不是由紧邻其周围的标签唯一定义的,而是由之前的标签唯一定义的,即它看起来像

<div class="unique">
<span class="not unique>
data I want to get
</span>
</div>

在我的 HTMLParser 类中,我用这个重写了handle_starttag方法

def handle_starttag(self, tag, attrs):
self.inLink = False
if tag == 'div':
for name, value in attrs:
if name == 'class' and value == 'unique':
self.inLink = True
self.lasttag = tag
if tag == 'span':
if self.lasttag == 'div' and self.inLink:
self.inlink = True
self.lasttag = tag

但它不起作用。为什么这不将我的开始标签设置为 div 标签内具有 class =“unique”的任何 span 标签,这通常是如何完成的?

最佳答案

通过执行以下操作成功解决了此问题:

def handle_starttag(self, tag, attrs):
self.inLink = False
if tag == 'div':
for name, value in attrs:
if name == 'class' and value == 'unique':
self.inLinkReady = True
if tag == 'span':
if self.inLinkReady:
self.inLink = True
self.lasttag = tag
self.inLinkReady = False

:)

关于Python:HTMLParser 如何处理来自子标签的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44997373/

24 4 0