gpt4 book ai didi

php - 从 https ://chenmed. wd1.myworkdayjobs.com/en-US/jencare/抓取和提取数据,当它在网页的 'Source Code' 中不可见时

转载 作者:行者123 更新时间:2023-12-01 22:18:30 26 4
gpt4 key购买 nike

我正在尝试编写一个自动化的 PHP 脚本来从 URL https://chenmed.wd1.myworkdayjobs.com/en-US/jencare/ 中抓取和提取所有“职位”(初级保健医师 - 潮水市场、初级保健医师 - 里士满市场等)。

然而,这似乎并不简单,因为所需的数据在网页的源代码中无法直接看到。我也尝试检查不同浏览器的“开发者工具->网络”,但无法找到数据源。

如有任何帮助,我们将不胜感激。

感谢和问候!

最佳答案

查看网站发出的请求,您会注意到一个包含您关心的数据的 XHR 请求:

enter image description here

然而,在浏览器中访问该 URL 会得到与导航到 https://chenmed.wd1.myworkdayjobs.com/en-US/jencare/ 相同的结果。 .通过查看请求 header 进一步调查

enter image description here

注意到 Accept:application/json,application/xml(这表示客户端需要一个 json 或 xml 文档)。事实上,事实证明请求 https://chenmed.wd1.myworkdayjobs.com/en-US/jencare/ 是真的使用此附加 header 返回所需的数据:

>>> import urllib.request
>>> req = urllib.request.Request('https://chenmed.wd1.myworkdayjobs.com/en-US/jencare/')
>>> req.add_header('Accept', 'application/json,application/xml')
>>> urllib.request.urlopen(req).read().decode('utf-8').find('Primary Care Physician ') > 0
True

因此在 PHP 中您可能需要执行以下步骤:

  1. 使用附加 header 请求 ttps://chenmed.wd1.myworkdayjobs.com/en-US/jencare/Accept:application/json,application/xml(参见例如 How do I send a GET request with a header from PHP?)
  2. 解析返回的 JSON(例如使用 http://php.net/manual/de/function.json-decode.php )

关于php - 从 https ://chenmed. wd1.myworkdayjobs.com/en-US/jencare/抓取和提取数据,当它在网页的 'Source Code' 中不可见时,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42047922/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com