gpt4 book ai didi

python - 使用 lxml,找到所有 td 类 ='banana',但前提是它们包含文本 "Today"

转载 作者:太空宇宙 更新时间:2023-11-04 10:51:47 24 4
gpt4 key购买 nike

所以我想获取所有 td class="banana"中的所有 a 标签,但前提是此 td 包含文本“今天”

import lxml.html
html = lxml.html.parse("http://www.sitetoscrape.com/")
a = html.xpath('//td[@class="banana"]//text[@text="Today"]//a')

print a

这将返回一个空列表,如果我删除“//text[@text="Today"]"它会起作用,但我会返回所有 td class='banana' 中的所有链接

最佳答案

没有例子很难给出准确的答案,但类似的东西应该可以做到。

import lxml.html as lh

html="""\
<html>
<body>
<h1>My First Heading</h1>
<td class="banana">
<a>today</a>
<a></a>
<a></a>
</td>
<td class="banana">
<a>bar</a>
<a></a>
<a></a>
</td>
</body>
</html>"""

doc=lh.fromstring(html)

doc.xpath('.//td[contains(.,"today") and @class="banana"]/a')
Out[145]: [<Element a at 1c348b8>, <Element a at 1c34ae8>, <Element a at 1c34c00>]

关于python - 使用 lxml,找到所有 td 类 ='banana',但前提是它们包含文本 "Today",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13356877/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com