gpt4 book ai didi

javascript - 尝试从 HTML 中的 javascript 中提取 Json 字符串

转载 作者:行者123 更新时间:2023-12-03 12:31:59 24 4
gpt4 key购买 nike

我正在使用 NodeJS 进行网页抓取。

我有一个复杂的 HTML 字符串。它包含许多 html 标签和一些 java 脚本 block 。每个javascript block 都包含带有几个参数的js函数,每个参数都是一个Json字符串。我只对那些 Json 字符串感兴趣。提取它们的最佳方法是什么?

示例代码:

<html>
<header>...</header>
<script>function1(param1:[{a:"V1"},{b:"v2"}],param2:[{c:"v3"},{d:"v4"}])</script>
<script>...</script>
<body>...</body>
</html>

感谢您的建议。

最佳答案

首先,用 cheerio 解析 html 。这将使您能够从 <script> 中正确提取 javascript 文本。标签使用 jQuery 语法 $('script').text() (你可能想循环遍历所有脚本标签)。一旦您提取了 javascript 本身,请使用 esprima解析 javascript,找到所有函数调用,并找到所有文字参数。这两个库比用正则表达式一起破解某些东西会更正确地工作。从小事做起,发布一个代码片段,如果遇到困难就回来寻求帮助。

关于javascript - 尝试从 HTML 中的 javascript 中提取 Json 字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23883918/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com