gpt4 book ai didi

javascript - 如何抓取网页的javascript部分?

转载 作者:行者123 更新时间:2023-11-30 19:48:21 25 4
gpt4 key购买 nike

我正尝试在 Node.js 中抓取一些网站。我关注了 great tutorial但是要意识到这可能不是我想要的,即。可能正在查看抓取页面的 javascript 部分而不是 html 部分。

这可能吗?

这样做的原因是我正在寻找加载我可以通过在 Safari(未在 Chrome 中显示)检查 kayak.com 页面(见下面的 url)找到的代码的以下部分的内容,并且似乎在脚本部分。

reducer: {"reducerPath":"flights\/results\/react\/reducers\/

https://www.kayak.com/flights/TYO-PAR/2019-07-05-flexible/2019-07-14-flexible/1adults/children-11?fs=cfc=1;legdur=-960;stops=~0;bfc=1&sort=bestflight_a&attempt=2&lastms=1550392662619

最佳答案

更新:不幸的是,这个网站使用了机器人/抓取保护:像 curl 这样的工具得到一个带有机器人警告的页面,像 puppeteer 这样的 headless 浏览器工具得到一个带有验证码的页面。

===============

由于此行存在于 HTML 源代码中,并且不是通过 JavaScript 执行动态添加的,因此您可以将类似的内容与适当的库 API 一起使用:

const extractedString = [...document.querySelectorAll('script')]
.map(({ textContent }) => textContent)
.find(txt => txt.includes('string'))
.match(/regexp/);

关于javascript - 如何抓取网页的javascript部分?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54734134/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com