gpt4 book ai didi

python-3.x - 如何通过维基百科页面的 BS4 过滤特定的跨度类?

转载 作者:行者123 更新时间:2023-12-01 01:53:18 25 4
gpt4 key购买 nike

Wikipedia page包含两个引用错误。您可以在页面底部上方的红色句子(引用序列号 6 和 95)中找到引用错误。当我检查元素时,我发现我应该提取特定的跨度类,即 <span class="error mw-ext-cite-error"我如何获得<span class="error mw-ext-cite-error 的外部html 的副本“数据?

以下代码给出了所有 <span class>数据。

from bs4 import BeautifulSoup
import requests
import csv

getUrl= 'https://ta.wikipedia.org/s/h6h'
url = getUrl
content = requests.get(url).content
soup = BeautifulSoup(content,'lxml')
heading = soup.title
print(heading.text)
#to get the specific li-interwiki-ta tag<span class="error mw-ext-cite-error"
refError = soup.findAll ('span')
print (refError)

我如何过滤并获得特定的 <span class="error mw-ext-cite-error数据?

最佳答案

您可以通过以下方式过滤特定类并迭代元素:

refError = soup.findAll('span', { 'class': 'mw-ext-cite-error'})
for error in refError:
print error

关于python-3.x - 如何通过维基百科页面的 BS4 过滤特定的跨度类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42603857/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com