gpt4 book ai didi

python - 当HTML代码不一致时,如何在python中使用bs4识别正确的td标签

转载 作者:太空宇宙 更新时间:2023-11-03 16:16:18 25 4
gpt4 key购买 nike

我正在 Python 中使用 BeautifulSoup4 来解析一些 HTML 代码。我已经设法深入到正确的表并识别 td 标签,但我面临的问题是标签中的样式属性应用不一致,这使得获取正确的 td 标签的任务成为真正的挑战.

我试图提取的数据是一个日期字段,但在任何时候都会有多个使用 CSS 隐藏的 td 标签(可见的内容取决于 HTML 代码中其他位置选择的选项值)。

实际例子:

<td style="display: none;">01/03/2016</td>
<td style="display: table-cell;">27/10/2015</td> <-- this is the tag I want

<td style="display:none">23/02/2016</td>
<td style="">09/05/2011</td> <-- this is the tag I want
<td style="display: none;">29/03/2011</td>
<td style="display:none">19/10/2010</td>

<td>27/10/2015</td> <-- this is the tag I want
<td style="display: none">01/03/2016</td>
<td style="display: none">22/03/2016</td>

<td style="display:none">11/04/2015</td>
<td style="display: table-cell;">02/02/2016</td> <-- this is the tag I want
<td style="display: none">18/10/2013</td>

如何排除/删除不正确的项目(其样式为 display:nonedisplay: none),以便留下我真正想要的项目?

最佳答案

使用列表组合过滤 td,仅当 td 在集合中没有样式属性时才保留 {"display:none", "display: none;","display: none;","显示:无”}:

In [8]: h1 = """"<td style="display: none;">01/03/2016</td>
...: <td style="display: table-cell;">27/10/2015</td>"""

In [9]: h2 = """"<td style="display:none">23/02/2016</td>
...: <td style="">09/05/2011</td> <-- this is the tag I want
...: <td style="display: none;">29/03/2011</td>
...: <td style="display:none">19/10/2010</td>"""

In [10]: h3 = """"<td>27/10/2015</td> <-- this is the tag I want
....: <td style="display: none">01/03/2016</td>
....: <td style="display: none">22/03/2016</td>"""

In [11]: h4 = """<td style="display:none">11/04/2015</td>
....: <td style="display: table-cell;">02/02/2016</td> <-- this is the tag I want
....: <td style="display: none">18/10/2013</td>"""

In [12]: ignore = {"display:none", "display: none;", "display: none;", "display: none"}

In [13]: for html in [h1, h2, h3, h4]:
....: soup = BeautifulSoup(html, "html.parser")
....: print([td for td in soup.find_all("td") if not td.get("style") in ignore])
....:
[<td style="display: table-cell;">27/10/2015</td>]
[<td style="">09/05/2011</td>]
[<td>27/10/2015</td>]
[<td style="display: table-cell;">02/02/2016</td>]

关于python - 当HTML代码不一致时,如何在python中使用bs4识别正确的td标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38927775/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com