gpt4 book ai didi

Python BeautifulSoup : How get text from self-closing tags

转载 作者:行者123 更新时间:2023-12-04 17:47:16 26 4
gpt4 key购买 nike

我正在尝试使用 beautifulsoup 解析 evernote list 的内容。但是当我对内容调用 html 解析器时,它会不断更正自关闭标签 (en-todo),因此当我尝试获取 en-todo 标签的文本时,它要么是空白。

note_body = '<en-todo checked="true" />window caulk<en-todo />cake pan<en-todo />cake mix<en-todo />salad mix<en-todo checked="true"/>painters tape<br />'

import re
from bs4 import BeautifulSoup
soup = BeautifulSoup(note_body, 'html.parser')
checklist_items = soup.find_all('en-todo')
print checklist_items

上面的代码只返回标签,没有任何文本。

[<en-todo checked="true"></en-todo>, <en-todo></en-todo>, <en-todo></en-todo>, <en-todo></en-todo>, <en-todo checked="true"></en-todo>]

最佳答案

您需要获取未包含在标签中的文本消息!

你需要使用tag.next_sibling!

>>> [each.next_sibling for each in checklist_items]
[u'window caulk', u'cake pan', u'cake mix', u'salad mix', u'painters tape']

关于Python BeautifulSoup : How get text from self-closing tags,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47897109/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com