gpt4 book ai didi

javascript - Python 从 PGA 网站上的 JavaScript 表中抓取

转载 作者:行者123 更新时间:2023-12-03 04:48:25 26 4
gpt4 key购买 nike

我刚刚接触 Python,主要使用 BeautifulSoup 从网络上抓取体育数据。我在 PGA 网站上遇到了一个问题,该表格是由 javascript 生成的,希望有人可以在我正在使用的特定网站的上下文中引导我完成整个过程。这是一个示例链接“http://www.pgatour.com/content/pgatour/players/player.29745.tyler-aldridge.html/statistics”,该表是所有玩家统计表。谢谢!

最佳答案

当网页使用 JavaScript 来构建或获取其内容时,您无法使用仅从网络下载 HTML 的工具。您需要更彻底地模仿网络浏览器并解释 JavaScript 的东西。换句话说,就是所谓的 headless 浏览器。其中有一些,甚至有一些与 Python 集成良好。您可能想通过搜索 PhantomJS 开始您的旅程。或Selenium 。一旦您选择了所需的工具,您就可以让浏览器完成检索和渲染工作,然后以与 BeautifulSoup 类似的方式浏览 DOM。在静态页面上。

不过,我还想先看看浏览器调试器的“网络”选项卡。有时您可以识别GET这实际上是从服务器获取表数据。在这种情况下,GET 可能更容易您自己获取数据(例如通过 requests ),而不是采用复杂的技术来为您完成此操作。您也很有可能以简单的方式获得您想要的信息 JSON这将使它使用起来更加简单。 PGA 网站 GET有数百种资源可供构建,但浏览它们仍然是一笔不错的交易。

关于javascript - Python 从 PGA 网站上的 JavaScript 表中抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42768471/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com