gpt4 book ai didi

python - 如何抓取 html 中的非文本?

转载 作者:行者123 更新时间:2023-12-01 01:18:50 25 4
gpt4 key购买 nike

我正在尝试从循环中的每个容器获取唯一信息。我正在使用 python 3.7 和 BeautifulSoup 进行抓取。

我遇到了一个问题,我试图获取唯一的玩家 ID 号。

这是数字嵌套在的 a 标签:

<a cache="true" class="flexpop" content="tabs#ppc" fpopheight="357px" fpopwidth="490px" href="" instance="_ppc" leagueid="216415" playerid="14880" seasonid="2018" tab="null" teamid="-2147483648"> /a>

我尝试过 a.split() 将 a 标签转换为列表,我可以在其中索引我想要的数据,但这不起作用。

我尝试使用选择功能; a.select("playerid") 但会得到像这样的空括号[]。

非常感谢任何帮助!谢谢。

最佳答案

您也可以使用以下语法

from bs4 import BeautifulSoup as bs
h = '<a cache="true" class="flexpop" content="tabs#ppc" fpopheight="357px" fpopwidth="490px" href="" instance="_ppc" leagueid="216415" playerid="14880" seasonid="2018" tab="null" teamid="-2147483648"> /a>'
soup = bs(h,'lxml')
print(soup.select_one('a[playerid]')['playerid'])

关于python - 如何抓取 html 中的非文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54043419/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com