python - 如何阅读网站内容？-6ren

python - 如何阅读网站内容？

转载作者：太空宇宙更新时间：2023-11-03 14:12:40

24

4

我是使用 python 2.7 的网络爬虫新手。

1。背景

现在，我想从AQICN.org中收集有用的数据这是一个很棒的网站，提供全世界的空气质量数据。

我想用 python 每小时获取所有中国站点的数据。但我现在被困住了。

2。我的烦恼

以这个网站(http://aqicn.org/city/shenyang/usconsulate/)为例。

此页面提供美国驻华领事馆的空气污染和气象参数。使用这样的代码，我无法获得有用的信息。

import urllib
from bs4 import BeautifulSoup
import re
import json

html_aqi =    
urllib.urlopen("http://aqicn.org/city/shenyang/usconsulate/json").read().decode('utf-8')
soup= BeautifulSoup(html_aqi)
l = soup.p.get_text() 
aqi= json.loads(l)

结果显示如下:

> ValueError: No JSON object could be decoded

因此，我将 html_aqi 更改为这种格式(引用某人的工作):

http://aqicn.org/aqicn/json/android/shenyang/usconsulate/json

代码运行良好。

3。我的目标。

格式 1: ( http://aqicn.org/city/shenyang/usconsulate/json)
格式 2: ( http://aqicn.org/aqicn/json/android/shenyang/usconsulate/json)

一般来说，我可以处理格式 2 。但是，我收集了中国所有站点的网站，格式为 1。那么，任何人都可以为我提供一些帮助来应对格式 1 吗？多谢。

更新

格式一很难转化为格式二(需要考虑很多条件。)

使用这样的代码无法轻松完成:

city_name = url_format1.split("/")[5]
site_name = url_format1.split("/")[6]
url_format2 = "http://aqicn.org/aqicn/json/android/"+ city_name + "/"+    site_name

### --- Reason Why it's hard  in practice  
1559 sites need to be care with, and these sites differ by their location.     
Some are in city, some are in county. Their url are not the same pattern.   
for example: 
Type1 --> http://aqicn.org/city/hebi/json
Type2 --> http://aqicn.org/city/jiangsu/huaian/json
Type3 --> http://aqicn.org/city/china/xinzhou/jiyin/json

最佳答案

如果您对空气质量指数感兴趣，请找到具有 aqivalue 类的 div:

>>> import urllib
>>> from bs4 import BeautifulSoup
>>> 
>>> url = "http://aqicn.org/city/shenyang/usconsulate/json"
>>> soup = BeautifulSoup(urllib.urlopen(url), "html.parser")
>>> soup.find("div", class_="aqivalue").get_text()
u'171'

关于python - 如何阅读网站内容？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36102858/

24

4

0

文章推荐： python - 从其中一项的事件中清除 QGraphicsScene

文章推荐： ssl - 这个设置会起作用吗？

文章推荐： c# - 林克 2 SQL : update record via a web service

文章推荐： java - Hudson 已经停止检查来自 assembla 的源代码

Python Pandas 阅读
我正在尝试读取一个大型日志文件，该文件已使用不同的分隔符(遗留更改)进行了解析。此代码有效 import os, subprocess, time, re import pandas as pd f
Pascal(免费或快速)阅读
我试图理解在 Linux 下以 Turbo 模式(特别是 fpc -Mtp -vw)编译的 Free Pascal 中看到的有点神奇的行为。代码来自 Jack Crenshaw 的“让我们构建一个编译
阅读 R 中的表格？
我有一个具有以下结构的 txt 文件: NAME DATA1 DATA2 a 10 1,2,3 b 6 8,9 c 2
Pascal(免费或快速)阅读
我试图理解在 Linux 下以 Turbo 模式(特别是 fpc -Mtp -vw)编译的 Free Pascal 中看到的有点神奇的行为。代码来自 Jack Crenshaw 的“让我们构建一个编译
java - 阅读、理解和修复该代码
public class Bug1 { private String s; public void Bug1(){ s = "hello"; } public Stri
C#多线程文件IO(阅读)
我们有这样一种情况，我们的应用程序需要处理一系列文件，而不是同步执行此功能，我们希望采用多线程将工作负载分配给不同的线程。每一项工作是: 1.以只读方式打开文件 2.处理文件中的数据 3.将处理后的
c++ - 阅读(？)转义字符
我正在尝试读取 .php 文件并替换十六进制字符。php文件格式如下: 问题是它弄乱了转义字符 (\") 到目前为止我的代码: while(i=48 && str[i+2]=97 && str[i+
c# - 阅读 HTML？
我正在用 C# 开发一个程序，我需要一些帮助。我正在尝试创建一个数组或项目列表，显示在某个网站上。我想要做的是阅读 anchor 文本，它是 href。例如，这是 HTML:
android - 阅读/写作偏好是一项昂贵的操作吗？
我有一个偏好设置，它控制我的应用程序是否在用户单击按钮时播放声音(这种情况经常发生，想想计算器)。每次用户单击按钮时，都会调用以下方法: private void playButtonClickSou
ios - 阅读/查看标签末尾的更多信息
我正在尝试在我的标签末尾创建一个阅读更多按钮。我希望它默认显示 3 行。我正在用 swift 而不是 objective c 编写代码。只有当用户点击标签的阅读更多部分时，标签才会展开。它的外观和工作
c++ - 阅读/理解第三方代码
当您获得第三方库(c、c++)、开源(LGPL 说)但没有很好的文档时，了解它以便能够集成到您的应用程序中的最佳方法是什么？该库通常有一些示例程序，我最终使用 gdb 浏览了代码。还有其他建议/最佳
c - 阅读;线程安全与否？
同时从 2 个或更多不同线程对同一个文件描述符使用 pread 是否有问题？最佳答案 pread 本身是线程安全的，因为它不在 list of unsafe functions 上.所以调用它是安全
python - 阅读 Pandas 数据框时跳过包含特定值的特定行
当您使用命令 pd.read_csv 读取 csv 时，如何跳过连续包含特定值的行？如果在第 50、55 行，第一列的值为 100，那么我想在读取 csv 文件时跳过这些行。我如何将这些命令放入像 p
c# - 阅读 T4 文件的内容我缺少什么？
我迫切需要在 C# 中使用 T4 生成 HTML 输出。我正在使用 Runtime-T4-Files 并选择“TextTemplatingFilePreprocessor”而不是“TextTempl
sap - ERP 阅读/练习什么？
今年夏天我在实习期间一直在学习 ERP 应用程序。由于我是一名即将毕业的程序员，我希望有一个可靠的软件分支可以帮助我完成工作，直到我确定下一步该做什么(直到我对大局有一个很好的了解)。到现在为止，我刚
scala - 阅读 Parquet 时是否有可能保持列顺序？
将包含列(例如“a”、“b”)的数据帧保存为 parquet，然后在稍后的时间点读取 parquet 不会提供相同的列顺序(可能是“b”、“a”fe)文件保存为。不幸的是，我无法弄清楚订单是如何受到
Swift - 阅读 Google 表格
我正在开发一个使用谷歌表格作为数据库的应用程序，但我不知道如何让 Swift 从谷歌表格中读取。我浏览了 API 网站和一些问题，但刚开始我需要一些帮助。到目前为止，我有；私有(private)让范
java - 阅读 Swing 是否值得？
我打算阅读swing concept，如果值得一读，请推荐一些学习 Material 最佳答案自 AWT 崩溃以来，Java 的 GUI 工具包太多了。即使是 Swing 也被评论家严重低估，但他们
j - 阅读 J 代码的最佳策略
我已经使用 J 几个月了，我发现阅读不熟悉的代码(例如，不是我自己写的)是该语言最具挑战性的方面之一，尤其是在默认情况下。过了一会儿，我想出了这个策略: 1)将代码段复制到word文档中 2)从(1)
iphone - 阅读 iPhone 短信？
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关

首页

博学

6Ren·AI

商城

python - 如何阅读网站内容？

1。背景

2。我的烦恼

3。我的目标。

更新