gpt4 book ai didi

Python Beautiful Soup 获取
后的部分文本

转载 作者:行者123 更新时间:2023-12-01 06:33:12 25 4
gpt4 key购买 nike

我正在使用 Beautiful Soup 进行一些抓取,并且有如下标签:

一=

<a class="list-group-item" href="URL Link">
<span class="btn btn-blue "><span class="spanClass"></span></span>
<strong>Store Name</strong>
<br>Store Address Here </a>

我只需要 <br> 之后的文本...这是此处的商店地址,而忽略商店名称

我试过a.text ,但它给了我 \n\nStore Name\nStore Address Here\t\t\t\t

我试过a.text.replace("\n","") ,但它给了我 Store NameStore Address Here\t\t\t\t

我试过a.find(text=True, recursive=False) ,但它给了我 \n

有人可以指导我获取 <br> 之后的文本吗? ? TIA

最佳答案

你可以尝试:

address = a.text.split('\n')[-1].strip()

这将通过在每个\n 处分隔文本将文本拆分为字符串列表。然后 [-1] 告诉它获取该列表中的最后一个字符串。最后,strip() 将删除前导和尾随空白,其中包括\t (制表符)和\n (换行符)。

一步一步(您可以通过在每一步打印字符串来确认这一点):

  1. a.text 开头 -> '\n\n商店名称\n在此处存储地址\t\t\t\t'
  2. a.text.split('\n') -> ['', '商店名称', '此处存储地址\t\t\t\t']
  3. a.text.split('\n')[-1] -> '在此处存储地址\t\t\t\t'
  4. a.text.split('\n')[-1].strip() -> '在此处存储地址'

关于Python Beautiful Soup 获取<br>后的部分文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59797286/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com