gpt4 book ai didi

javascript - Python/R 中的网页抓取 javascript

转载 作者:行者123 更新时间:2023-11-28 18:38:46 25 4
gpt4 key购买 nike

我正在做一些个人数据科学项目,其中之一是查看某些歌曲在广播中播放的频率。

http://www.iheart.com/live/radio-1045-3401/

查看上面的 URL,当我查看页面源代码时,没有填充任何感兴趣的值。不知道为什么,但是当我在 Chrome 中使用检查元素并将鼠标悬停在“正在播放”标题上时,我可以看到正在播放的歌曲和艺术家的值。

示例:

a class="player-song" href="/artist/rem-3610/songs/-2450662/" title="Losing My Religion" data-reactid=".1hpdfx1l4ow.a.1.0.1.1">Losing My Religion</a

我的两个问题是:

  1. 为什么这没有显示在页面源代码中,但我可以在“检查元素”下看到它?
  2. 由于该信息未出现在页面源代码中,我该如何从网络上抓取该信息?

最佳答案

  1. 大多数涉及动态元素的网页都有由浏览器为您解析和执行的 Javascript 生成和插入的页面元素。我怀疑,根据问题标题,您已经猜到了这一点。

    您在页面源代码中看到的是 JavaScript 启动并更新之前的原始 HTML。

  2. 您想要 headless browser :没有图形用户界面的浏览器。这将为您解析并执行 Javascript,并相应地更新页面 HTML。

<小时/>

这是一个full list of headless browsers 。请注意,您可以使用任何语言执行此任务。

关于javascript - Python/R 中的网页抓取 javascript,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36506547/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com