gpt4 book ai didi

python - 无法查找和处理从 HTML 中取出的文本

转载 作者:行者123 更新时间:2023-12-01 02:00:14 26 4
gpt4 key购买 nike

我试图在网页中搜索“西类牙语”内容,但根本找不到。

这是我到目前为止的代码:

from bs4 import BeautifulSoup
import requests
import re

url = 'http://www.autotaskstatus.net/'
r = requests.get(url)
estado = r.status_code
r = r.content
soup = BeautifulSoup(r, "html.parser")
data = soup.find_all('span', attrs={'class':'name'})[1]
pais = 'Spanish'
data.get_text()
print(data.text)

我有“pais”变量,因此它将被输入替换,以便用户可以搜索他们想要的国家/地区。我用 1 得到的唯一数据是“有限发布”,但如果我用 0 则根本无法过滤结果

我在互联网上进行了搜索,但没有找到遇到同样问题的人,因此我找不到解决方案。

我使用的是Python 3.6

编辑:由于人们似乎觉得这不清楚,我现在就解释一下我在页面上的内容是: - 只是一部分

<div data-component-id="fp5s6cp13l47"
class="component-inner-container status-green "
data-component-status="operational"
data-js-hook="">


<span class="name">
Concord
&nbsp;
</span>

<span class="tooltip-base tool" title="https://concord.centrastage.net">?</span>
<span class="component-status">
Operational
</span>

所以西类牙语就像“Concord”,我想取出的是“西类牙语”(以及后来的“操作”),它将位于 var 中,以便以后可以针对那里的任何国家/地区进行更改

最佳答案

您可以使用以下方法获取西类牙语服务器状态:

from bs4 import BeautifulSoup
import requests

URL = 'http://www.autotaskstatus.net/'
with requests.session() as s:
s.headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0'}
r = s.get(URL)
soup = BeautifulSoup(r.content, "html.parser")
data = soup.find_all('div', attrs={'class':'component-inner-container'})
pais = 'Spanish'
print([d.find('span', {'class': 'name'}).text.strip() + ' - ' + d.find('span', {'class': 'component-status'}).text.strip() for d in data if pais in d.text])

关于python - 无法查找和处理从 HTML 中取出的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49751339/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com