gpt4 book ai didi

python - 如何从html表格行中提取文本

转载 作者:太空宇宙 更新时间:2023-11-04 02:34:16 28 4
gpt4 key购买 nike

这是我的字符串:

content = '<tr class="cart-subtotal"><th>RTO / Registration office :</th><td><span class="amount"><h5>Yadgiri</h5></span></td></tr>'

我已经尝试使用正则表达式来提取 h5 元素标签之间的文本:

   reg = re.search(r'<tr class="cart-subtotal"><th>RTO / Registration office :</th><td><span class="amount"><h5>([A-Za-z0-9%s]+)</h5></span></td></tr>' % string.punctuation,content)

返回的正是我想要的。

有没有更多的 pythonic 方法来获得这个?

最佳答案

不知道这是否符合更多 pythonic 的条件,但它将它作为 HTML 数据处理。

from lxml import html
content = '<tr class="cart-subtotal"><th>RTO / Registration office :</th><td><span class="amount"><h5>Yadgiri</h5></span></td></tr>'
HtmlData = html.fromstring(content)
ListData = HtmlData.xpath(‘//text()’)

获取最后一个元素:

ListData[-1]

关于python - 如何从html表格行中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48321363/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com