gpt4 book ai didi

python - 使用 BeautifulSoup 从表中的单元格中提取值

转载 作者:太空宇宙 更新时间:2023-11-03 14:24:52 26 4
gpt4 key购买 nike

我对Python和所有东西都非常陌生,我正在尝试让BeautifulSoup从本页的这个表的一个特定单元格返回一个数字值(或同一维基中的任何其他类似页面)

现在我所拥有的是:

url = ('http://unisonleague.wikia.com/wiki/Brynhildr,_Dual_Lancer_(Gear)')
r = requests.get(url)
data = r.text
soup = BeautifulSoup (data , 'html.parser')
table = soup.find (id='mw-content-text')
rows = table.find ('tr')
cells = rows.findAll('td')

我想要的值来自“Max Unison Chance”旁边的单元格,因此在本例中为“10004”。

<td colspan="2" style="background-color:#5B4F3D; color:#ffffff;"> 10004 </td>

我试过了

 soup.findAll('td colspan="2"')

soup.find('td colspan')

但它只是返回任何内容或一个空列表。

我不太确定从这里到哪里去,我考虑/尝试过按行数索引(我相信这是行 [14]),也许是单元格,但我似乎无法正确获取代码?

最佳答案

不要像您那样采用自上而下的方法,而是使用 html 的树结构来发挥您的优势。我假设您想将其推广到其他类似格式的页面,所以您可以做的就是将其中带有“Max Unison Chance”的单元格视为 anchor ,然后您将遍历 Beautiful Soup 创建的解析树以到达您正在寻找的单元格。这是包含描述单元格和您要查找的单元格的 html/

<td style="height: 29px; background-color:#3F2D18; color:#ffffff; font-size:7pt;"> <b><span style="cursor:help;" title="Maximum stats used during a Unison Chance. It is the total of both stats with +198.">Max Unison Chance</span>:</b>
</td><td colspan="2" style="background-color:#5B4F3D; color:#ffffff;"> 10004
</td>

这里可以通过调用直接获取包含“Max Unison Chance”的html标签:

element = soup.find(text='Max Unison Chance')

这将为您提供包含文本“Max Unison Chance”的元素。然后,如果您查看包含您正在查找的数字的标签相对于您现在拥有的元素的位置。您可以看到,您需要向上三个节点才能到达包含 10004 的单元格旁边的元素。

要导航到此单元格,我们可以使用元素的父属性并使用属性链:

great_grandparent = element.parent.parent.parent

我们现在需要通过以下方式获取我们曾祖 parent 的下一个 sibling :

target_cell = great_grandparent.next_sibling

最后获取元素的文本值并清理它:

result = target_cell.text.strip()

然后将它们放在一起:

from bs4 import BeautifulSoup
import requests
url = ('http://unisonleague.wikia.com/wiki/Brynhildr,_Dual_Lancer_(Gear)')
r = requests.get(url)
data = r.text
soup = BeautifulSoup (data , 'html.parser')
element= soup.find(text='Max Unison Chance')
result = element.parent.parent.parent.next_sibling.text.strip()

另一种方法是使用解析顺序而不是树顺序,这样您就可以将结果替换为:

result = cell.next.next.next.strip()

由于下一个属性根据您使用的解析器的工作方式引用下一个元素

关于python - 使用 BeautifulSoup 从表中的单元格中提取值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47709024/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com