gpt4 book ai didi

javascript - 使用 python 打开网络浏览器(在 Windows 上),触发 javascript 操作,并获取 html 内容?

转载 作者:可可西里 更新时间:2023-11-01 10:54:06 26 4
gpt4 key购买 nike

是的,这听起来太复杂了。

我正在尝试从我们的 Intranet 上的页面中挖掘数据。这些页面是安全的。当我尝试使用 urllib.urlopen() 获取内容时,连接被拒绝。

所以我想使用 python 打开网络浏览器来打开网站,然后单击一些链接,这些链接会触发包含我要收集的信息表的 javascript 弹出窗口。

关于从哪里开始有什么建议吗?

我知道页面的格式。它是这样的:

<div id="list">
<ul id="list item">
<li><a onclict="Openpopup('1');">blah</a></li>
</ul>
<ul></ul>
etc

然后一个隐藏的框架变得可见,并且表格中的字段被填充。

<div>
<table>
<tr><td><span id="info_i_want">...

最佳答案

首先,我建议最好弄清楚 JS 提供的页面需要什么,然后伪造它 - 如果不涉及浏览器,您将更容易抓取页面。

如果 只是 Javascript 发出 XMLHttpRequest,您可以找到 Javascript 从中获取 iframe 数据的页面并直接连接到该页面。

但尽管如此,您可能需要一个执行 Javascript 的库(如果逆向工程太难或它使用挑战 token )。像 Gecko 或 WebKit 这样的网络渲染框架可能是合适的。

好好看看Selenium如果您坚持使用真正的网络浏览器或无法使用编程方法。

通过任何方法获取页面内容后,您需要一个HTML 解析器(例如sgmllib 或[几乎] xml.dom)。我建议使用 DOM 库。解析 DOM 并从结果树中的适当节点提取内容。

关于javascript - 使用 python 打开网络浏览器(在 Windows 上),触发 javascript 操作,并获取 html 内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9013400/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com