gpt4 book ai didi

python - 使用 Python 查找 HTML 标签中的数据

转载 作者:行者123 更新时间:2023-12-01 08:28:39 26 4
gpt4 key购买 nike

我尝试从网站上抓取以下 HTML 代码:

<td>Net Taxes Due<td>
<td class="value-column">$2,370.00</td>
<td class="value-column">$2,408.00</td>

我想要完成的是搜索页面以在标签内找到文本“Net Taxes Due”,找到标签的同级标签,然后将结果发送到 Pandas 数据框中。

我有以下代码:

soup = BeautifulSoup(url, "html.parser")
table = soup.select('#Net Taxes Due')

cells = table.find_next_siblings('td')
cells = [ele.text.strip() for ele in cells]

df = pd.DataFrame(np.array(cells))

print(df)

我一直在网上寻找解决方案,但找不到任何解决方案。感谢任何帮助。

谢谢!

最佳答案

在下面我预计使用索引 1 和 2,但在使用 lxml.html 和 xpath 时,2 和 3 似乎可以工作

import requests
from lxml.html import fromstring
# url = ''
# tree = html.fromstring( requests.get(url).content)
h = '''
<td>Net Taxes Due<td>
<td class="value-column">$2,370.00</td>
<td class="value-column">$2,408.00</td>

'''
tree = fromstring(h)
links = [link.text for link in tree.xpath('//td[text() = "Net Taxes Due"]/following-sibling::td[2] | //td[text() = "Net Taxes Due"]/following-sibling::td[3]' )]
print(links)

关于python - 使用 Python 查找 HTML 标签中的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54045382/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com