- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我为 this 构建了一个网络抓取工具取决于将字符串解析为 JSON 文件的页面。但是他们对网站做了一些更新,现在爬虫已经停止工作了。我认为问题在于我需要的信息不再采用 JSON 结构。
这是我原来的:
# Packages
from bs4 import BeautifulSoup
from urllib.request import urlopen, urlretrieve
import json
import ast
# The part that still works
address = 'https://campus.datacamp.com/courses/intro-to-python-for-data-science/chapter-1-python-basics?ex=2'
html = urlopen(address)
soup = BeautifulSoup(html, 'lxml')
string = soup.find_all('script')[2].string
json_text = string.strip('window.PRELOADED_STATE = "')[:-2]
# The part that's now broken
lesson = json.loads(json_text)
#> Traceback (most recent call last):
#> <ipython-input-11-f9b7d249d994> in <module>()
#> 2 # The part that's now broken
#> 3
#> ----> 4 lesson = json.loads(json_text)
#> ~/anaconda3/lib/python3.6/json/__init__.py in loads(s, encoding, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
#> 352 parse_int is None and parse_float is None and
#> 353 parse_constant is None and object_pairs_hook is None and not kw):
#> --> 354 return _default_decoder.decode(s)
#> 355 if cls is None:
#> 356 cls = JSONDecoder
#> ~/anaconda3/lib/python3.6/json/decoder.py in decode(self, s, _w)
#> 337
#> 338 """
#> --> 339 obj, end = self.raw_decode(s, idx=_w(s, 0).end())
#> 340 end = _w(s, end).end()
#> 341 if end != len(s):
#> ~/anaconda3/lib/python3.6/json/decoder.py in raw_decode(self, s, idx)
#> 355 obj, end = self.scan_once(s, idx)
#> 356 except StopIteration as err:
#> --> 357 raise JSONDecodeError("Expecting value", s, err.value) from None
#> 358 return obj, end
#> JSONDecodeError: Expecting value: line 1 column 2 (char 1)
问题是 json_text
中的所有信息不再以 JSON 结构化。
need_to_parse = BeautifulSoup(json_text, 'lxml').string #Escape HTML
print(len(need_to_parse))
#> 61453
print(need_to_parse[:50])
#> ["~#iM",["preFetchedData",["^0",["course",["^0",["
print(need_to_parse[-50:])
#> "type","MultipleChoiceExercise","id",14253]]]]]]]]
我想也许这是一个嵌套列表,所以我尝试了 ast.literal_eval()
,但没有成功!
parsed_list = ast.literal_eval(need_to_parse)
#> Traceback (most recent call last):
#> File "/Users/nicholascifuentes-goodbody/anaconda3/lib/python3.6/site-packages/IPython/core/interactiveshell.py", line 2862, in run_code
#> exec(code_obj, self.user_global_ns, self.user_ns)
#> File "<ipython-input-13-55b60da762d6>", line 2, in <module>
#> parsed_list = ast.literal_eval(need_to_parse)
#> File "/Users/nicholascifuentes-goodbody/anaconda3/lib/python3.6/ast.py", line 48, in literal_eval
#> node_or_string = parse(node_or_string, mode='eval')
#> File "/Users/nicholascifuentes-goodbody/anaconda3/lib/python3.6/ast.py", line 35, in parse
#> return compile(source, filename, mode, PyCF_ONLY_AST)
#> File "<unknown>", line 1
#> ["~#iM",["preFetchedData"
完整的输出在txt
文件中HERE .
有人认识这个数据结构吗?解析它的最佳方法是什么?
由 reprexpy package 创建于 2018-10-19
import reprexpy
print(reprexpy.SessionInfo())
#> Session info --------------------------------------------------------------------
#> Platform: Darwin-17.7.0-x86_64-i386-64bit (64-bit)
#> Python: 3.6
#> Date: 2018-10-19
#> Packages ------------------------------------------------------------------------
#> beautifulsoup4==4.6.0
#> reprexpy==0.1.1
最佳答案
数据结构是一个 Javascript 数组(嵌套数组),序列化为字符串并转义了 html 实体。
在您的浏览器控制台中,您可以 unescape它并对未转义的字符串调用 eval
以获取数组。
对我来说,ast.literal_eval
引发了 SyntaxError
,因此字符串必须包含不是有效 Python 语法的 Javascript 元素。即使没有,ast.literal_eval
仍然可能在语法上有效的 Python 但非法值的 Javascript 元素上失败,例如 null
或具有未加引号的键的对象。
要解析它,您需要使用 Javascript 解析器,或者找到一个解析 Javascript 的 Python 工具 - this question 的答案列出了一些,但请注意它自 2014 年以来已关闭,因此可能会有更新的解决方案可用。
关于python - Web 抓取未知数据结构(JSON、嵌套列表或其他?),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52894092/
最近开始学习MongoDB。今天老师教了我们 mongoexport 命令。在练习时,我遇到了一个典型的问题,包括教练在内的其他同学都没有遇到过。我在我的 Windows 10 机器上使用 Mongo
我是 JSON Schema 的新手,读过什么是 JSON Schema 等等。但我不知道如何将 JSON Schema 链接到 JSON 以针对该 JSON Schema 进行验证。谁能解释一下?
在 xml 中,我可以在另一个 xml 文件中包含一个文件并使用它。如果您的软件从 xml 获取配置文件但没有任何方法来分离配置,如 apache/ngnix(nginx.conf - site-av
我有一个 JSON 对象,其中包含一个本身是 JSON 对象的字符串。我如何反序列化它? 我希望能够做类似的事情: #[derive(Deserialize)] struct B { c: S
考虑以下 JSON { "a": "{\"b\": 12, \"c\": \"test\"}" } 我想定义一个泛型读取 Reads[Outer[T]]对于这种序列化的 Json import
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 11 个月前关闭。 Improve
我的旧项目在 MySQL 中有 Standard JSON 格式的数据。 对于我在 JS (Node.js) 和 DynamoDB 中的全新项目,关于 Standard JSON格式: 是否建议将其转
JSON 值字符串、数字、true、false、null 是否是有效的 JSON? 即,是 true 一个有效的 JSON 文档?还是必须是数组/对象? 一些验证器接受这个(例如 http://jso
我有一个 JSON 字符串,其中一个字段是文本字段。这个文本字段可以包含用户在 UI 中输入的文本,如果他们输入的文本是 JSON 文本,也许是为了说明一些编码,我需要对他们的文本进行编码,以便它不会
我正在通过 IBM MQ 调用处理数据,当由 ColdFusion 10 (10,0,11,285437) 序列化时,0 将作为 +0.0 返回,它会导致无效的 JSON并且无法反序列化。 stPol
我正在从三个数组中生成一个散列,然后尝试构建一个 json。我通过 json object has array 成功了。 require 'json' A = [['A1', 'A2', 'A3'],
我从 API 接收 JSON,响应可以是 30 种类型之一。每种类型都有一组唯一的字段,但所有响应都有一个字段 type 说明它是哪种类型。 我的方法是使用serde .我为每种响应类型创建一个结构并
我正在下载一个 JSON 文件,我已将其检查为带有“https://jsonlint.com”的有效 JSON 到文档目录。然后我打开文件并再次检查,结果显示为无效的 JSON。这怎么可能????这是
我正在尝试根据从 API 接收到的数据动态创建一个 JSON 对象。 收到的示例数据:将数据解码到下面给出的 CiItems 结构中 { "class_name": "test", "
我想从字符串转换为对象。 来自 {"key1": "{\n \"key2\": \"value2\",\n \"key3\": {\n \"key4\": \"value4\"\n }\n
目前我正在使用以下代码将嵌套的 json 转换为扁平化的 json: import ( "fmt" "github.com/nytlabs/gojsonexplode" ) func
我有一个使用来自第三方 API 的数据的应用程序。我需要将 json 解码为一个结构,这需要该结构具有“传入”json 字段的 json 标签。传出的 json 字段具有不同的命名约定,因此我需要不同
我想使用 JSON 架构来验证某些值。我有两个对象,称它们为 trackedItems 和 trackedItemGroups。 trackedItemGroups 是组名称和 trackedItem
考虑以下案例类模式, case class Y (a: String, b: String) case class X (dummy: String, b: Y) 字段b是可选的,我的一些数据集没有字
我正在存储 cat ~/path/to/file/blah | 的输出jq tojson 在一个变量中,稍后在带有 JSON 内容的 curl POST 中使用。它运作良好,但它删除了所有换行符。我知
我是一名优秀的程序员,十分优秀!