gpt4 book ai didi

python - 表的行周围缺少 : can I parse it?

转载 作者:行者123 更新时间:2023-11-30 23:21:54 25 4
gpt4 key购买 nike

我正在尝试解析一个如下所示的表:

<table>
<tr> <th> header1 </th> <th> header2 </th> </tr>
<th> missing1 </th> <th> missing2 </th>
<tr> <td> data1 </td> <td> data2 </td> </tr>
</table>

我特别需要访问其中包含“missing”的行。有什么办法可以访问该行吗?该表在浏览器中渲染得很好,所以我希望 BeautifulSoup 能够找到它,但是 b.findAll('tr') 错过了它。

编辑:一个具体的、更复杂的示例:http://atlasgal.mpifr-bonn.mpg.de/cgi-bin/ATLASGAL_SEARCH_RESULTS.cgi?text_field_1=AGAL010.472%2B00.027&catalogue_field=Sextractor&gc_flag=特别是以“行转换”为标题的表格,跨越几列

具体问题示例:

import requests
from bs4 import BeautifulSoup
r = BeautifulSoup(requests.get('http://atlasgal.mpifr-bonn.mpg.de/cgi-bin/ATLASGAL_SEARCH_RESULTS.cgi?text_field_1=AGAL010.472%2B00.027&catalogue_field=Sextractor&gc_flag=').content)
table = r.select('table:nth-of-type(5) tr')

table 缺少此行(包含在源代码中):r.select('table tr')[19]

最佳答案

这取决于解析器如何处理。 HTML 被破坏了,尽管 HTML 解析器无论如何都会尽最大努力来表示数据,但任何标准都没有定义它们如何做到这一点。

BeautifulSoup可以使用different parsers ;默认情况下使用内置的Python标准库解析器。如果您安装lxml,则会使用它的解析器。您还可以使用 html5lib 外部模块:

>>> from bs4 import BeautifulSoup
>>> broken = '''\
... <table>
... <tr> <th> header1 </th> <th> header2 </th> </tr>
... <th> missing1 </th> <th> missing2 </th>
... <tr> <td> data1 </td> <td> data2 </td> </tr>
... </table>
... '''
>>> BeautifulSoup(broken, 'html.parser').select('table tr')
[<tr> <th> header1 </th> <th> header2 </th> </tr>, <tr> <td> data1 </td> <td> data2 </td> </tr>]
>>> BeautifulSoup(broken, 'lxml').select('table tr')
[<tr> <th> header1 </th> <th> header2 </th> </tr>, <tr> <td> data1 </td> <td> data2 </td> </tr>]
>>> BeautifulSoup(broken, 'html5lib').select('table tr')
[<tr> <th> header1 </th> <th> header2 </th> </tr>, <tr><th> missing1 </th> <th> missing2 </th>
</tr>, <tr> <td> data1 </td> <td> data2 </td> </tr>]

如您所见,html5lib 解析器将包含missing 文本的行包含在树中:

>>> BeautifulSoup(broken, 'html5lib').select('table tr:nth-of-type(2)')
[<tr><th> missing1 </th> <th> missing2 </th>
</tr>]

如果您需要按标题查找特定表格,可以先搜索标题,然后导航到父表:

import requests
from bs4 import BeautifulSoup

url = 'http://atlasgal.mpifr-bonn.mpg.de/cgi-bin/ATLASGAL_SEARCH_RESULTS.cgi?text_field_1=AGAL010.472%2B00.027&catalogue_field=Sextractor&gc_flag='
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html5lib')

table = soup.find(text='Fitted Parameters for Observed Molecular Transitions').find_parent('table')
for row in table.find_all('tr'):
print row

关于python - 表的行周围缺少 <tr> : can I parse it?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24755272/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com