gpt4 book ai didi

linux - 从需要认证的页面下载网页源码

转载 作者:太空宇宙 更新时间:2023-11-04 04:10:30 24 4
gpt4 key购买 nike

我想在 Linux 机器中使用 shell 脚本或类似的东西(如 Perl、Python 等)从需要身份验证的页面下载网页源代码。

我尝试使用wget和curl,但是当我传递URL时,正在下载的源代码是针对要求我提供凭据的页面的。同一页面已在 Firefox 或 Chrome 上打开,但我不知道如何重新使用此 session 。

基本上我需要做的是定期刷新此页面,并 grep 获取源代码中的一些信息。如果我找到了我正在寻找的内容,我将触发另一个脚本。

-- 编辑--

谢谢@Alexufo。我设法让它工作,这样:

1 - 下载 Firefox 插件以允许我将 cookie 保存在 TXT 文件中。我使用了这个插件:https://addons.mozilla.org/en-US/firefox/addon/export-cookies/

2 - 登录我想要的网站,并保存 cookie。

3 - 使用 wget:

wget --load-cookies=cookie.txt 'http://my.url.com' -O output_file.txt

4 - 现在页面源代码位于output_file.txt中,我可以按照我想要的方式解析。

最佳答案

CURL 应该可以在任何地方使用。

1) 进行授权的第一响应。救救厨师吧2)当您尝试第二个响应来获取源页面代码时,请使用cookes。

更新:Wget 应该像curl一样与后授权一起使用 wget with authentication更新2:http://www.httrack.com/

关于linux - 从需要认证的页面下载网页源码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19382221/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com