gpt4 book ai didi

javascript - 如何从我抓取的 HTML 页面中解析 JavaScript 对象?

转载 作者:行者123 更新时间:2023-12-03 05:34:38 25 4
gpt4 key购买 nike

我正在尝试为食品食谱页面建立索引,实际食谱作为对象存储在页面的 JavaScript 中。

一个示例 URL:http://www.dagbladet.no/mat/oppskrift/bakt-potet-med-romme-og-blamuggostdressing

如果我在浏览器中打开开发者工具并输入:

console.dir(food.recipeItem.title)

我拿回了标题:

"Bakt potet med rømme- og blåmuggostdressing"

一切都很好,很花花公子,正是我所需要的。但是我如何才能获取该脚本并在 Node.js 应用程序中解析它呢? Cheerio 也许会帮我找到剧本,但不会做更多的事?或者也许会?我不确定如何做到这一点,也不知道什么是最有效的计算答案。或者说是最坚固的。

最佳答案

这非常简单,您所要做的就是解析返回的 HTML。如果您检查返回的 HTML(查看源代码: http://www.dagbladet.no/mat/oppskrift/bakt-potet-med-romme-og-blamuggostdressing ),您将发现一个脚本标记,其中包含多个 javascript 变量 中所需的所有信息。这些变量保存 JSON 数据。由于脚本直接硬编码到 HTML 文档中,而不是通过 XHR 或类似方式获取,因此解析 HTML 是执行此操作的唯一方法。

所以基本上你有以下 3 个步骤:

1.发送HTTP GET请求到the link above

2. 使用某个库解析 HTML 字符串以提取 script 标记(检查 this 链接来决定使用哪个库)。

3. 解析 javascript 字符串(从步骤 2 中提取的脚本)以提取 JSON 数据。检查UglifyJS Node.js 库

关于javascript - 如何从我抓取的 HTML 页面中解析 JavaScript 对象?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40784663/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com