gpt4 book ai didi

python - 如何使用 xpath 和正则表达式在 Python 中更优雅地提取数字

转载 作者:行者123 更新时间:2023-11-30 23:25:31 24 4
gpt4 key购买 nike

我有一个小的 html 片段,我想从中提取一个数字 - 实际上是一个成绩。我将 Python 与 scrapyre 结合使用。

我的代码可以工作,但还远远不够好。

这是 html 片段,我只想从中获取 2

<div id="left">
<div class="0"><b>Certificate:</b></div>
<div class="1">
<div></div>
<div>
<a class="link" href="new.html">Maths</a>&nbsp;(First)&nbsp;&nbsp;&nbsp;Grade 2<br>
</div>
</div>
<div class="2"></div>
</div>

到目前为止我是如何解决这个问题的:

! note = sel.xpath('//*[@id="left"]/div[2]/div[2]/text()[2]').extract()
! print note
> [u'\xa0(First)\xa0\xa0\xa0Grade 2']
! note_string = ''.join(note)
! note_only = re.search(r'\d+', note_string).group()
> 2

将列表转换为字符串来提取如此微小的信息当然不是最佳实践。

我怎样才能做得更好?

最佳答案

您可以使用以下 XPath 表达式来获取 2

substring-after(//*[@id="left"]/div[2]/div[2]/text(), "Grade ")

关于python - 如何使用 xpath 和正则表达式在 Python 中更优雅地提取数字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22967950/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com