gpt4 book ai didi

javascript - 抓取 javascript :void(0) content using python

转载 作者:行者123 更新时间:2023-11-30 20:19:37 25 4
gpt4 key购买 nike

我正在制作一个程序,其中我正在抓取一个网页并且内容从原始页面中隐藏并用于显示自己使用 herf = javascript:void(0) 链接和文本在 <p>然后 <span>标签。

这是我的代码:

import requests, re
from bs4 import BeautifulSoup

page = requests.get('https://www.naukri.com/job-listings-Python-Developer-
Cloud-Analogy-Softech-Pvt-Ltd-Noida-Sector-63-Noida-1-to-2-years-
250718003152?src=rcntSrchWithoutCount&sid=15327965116011&xp=1&px=1&qp=python%20developer&srcP%
20ge=s').text
soup = BeautifulSoup(page, 'html.parser')
link = soup.find('div', {'class':'jDisc
viewContact'}).find_all(re.compile('p|em|span'))
results = [i.text for i in link]
print(results)

HTML 页面在这里:

<a href="javascript:void(0)" class="mt30 dspB f14 lH20"
id="viewCont_trg">View Contact Details</a>

点击“查看联系方式”链接后,会显示所有隐藏内容。你能帮我解决这个问题吗?

最佳答案

加载页面时,联系方式不在网页上。单击查看联系方式后,网页会发出新请求以获取联系方式。

为了找出从哪个 url 获取联系人详细信息,您可以打开 firefox 或 chrome,然后使用右键单击 > 检查元素(或只需按 f12)打开调试器。然后转到网络选项卡。单击“查看联系方式”并查看它提出的请求。我已经检查过了,它获取详细信息的网址是“https://www.naukri.com/jd/contactDetails?file=250718003152”。您可以从原始网址“https://www.naukri.com/job-listings-Python-Developer-”获取文件 ID 为 250718003152Cloud-Analogy-Softech-Pvt-Ltd-Noida-Sector-63-Noida-1-to-2-years-250718003152?src=rcntSrchWithoutCount&sid=15327965116011&xp=1&px=1&qp=python%20developer&srcP%20ge=s”。

因此,您所要做的就是使用 urllib 或您正在使用的任何内容向 url“https://www.naukri.com/jd/contactDetails?file=250718003152”发出新的获取请求。响应将在 json 中。您必须解析 json 并提取所需的字段。

关于javascript - 抓取 javascript :void(0) content using python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51591849/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com