gpt4 book ai didi

python - 使用 Python 和 BeautifulSoup 解析 HTML - 获取 标签内外的文本

转载 作者:行者123 更新时间:2023-11-28 22:52:25 24 4
gpt4 key购买 nike

我有带有许多标签的 html,然后是这些标签之外的文本。我试图获取的文本位于
标记中,但第一个实例除外,我猜这只是标记的一部分。但是,如果我尝试获取标签的文本(如 td.text 或类似的东西),那么它还会为我提供所有和
标签中的所有文本。

    <td align="left">
<a class="playerLink" href="http://bbroto.baseball.cbssports.com/players/playerpage/1740935">
Garcia, Leury
</a>
SS CHW - Traded from Royal Disappointments
<br>
<a class="playerLink" href="http://bbroto.baseball.cbssports.com/players/playerpage/1813191">
Almonte, Abraham
</a>
OF SEA - Traded from Royal Disappointments
<br>
<a class="playerLink" href="http://bbroto.baseball.cbssports.com/players/playerpage/2046044">
Pillar, Kevin
</a>
OF TOR - Traded from Royal Disappointments
<br>
<a class="playerLink" href="http://bbroto.baseball.cbssports.com/players/playerpage/1666824">
Sierra, Moises
</a>
LF TOR - Traded from Royal Disappointments
<br>
<a class="playerLink" href="http://bbroto.baseball.cbssports.com/players/playerpage/580599">
Paulino, Felipe
</a>
SP KC
<span title="Felipe Paulino off 60-day DL">
<a class="playerLink" href="http://bbroto.baseball.cbssports.com/players/playerpage/580599" subtab="Update">
<img border="0" height="10" src="http://sports.cbsimg.net/images/news-note-recent.gif" width="10"/>
</a>
</span>
- Traded from Royal Disappointments
</br>
</br>
</br>
</br>
</td>

基本上我想要(作为单独的值)a 标签中的每个文本,然后是 a 标签之外的每个文本。所以最终结果将是:

加西亚,勒里

SS CHW - 从皇家失望交易

阿尔蒙特,亚伯拉罕

OF SEA - 从皇家失望中交易

支柱,凯文

OF TOR - 从皇家失望交易

塞拉利昂,莫伊塞斯

LF TOR - 从皇家失望交易

保利诺,费利佩

SP KC - 从皇家失望交易

到目前为止,我只有 a 标签中文本的代码:

        pl = psoup.findAll('a',{'class': 'playerLink'})
for a in pl:
print a.text

我真的不知道如何处理其余部分。

最佳答案

您可以使用 Tag.next 属性(别名为 Tag.next_element):

for a in psoup('a': {'class': 'playerLink'}):
print a.text
print a.next.next

实际上,每个“外部”文本都是链接后的第二个元素(第一个元素是链接 anchor )。

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com