gpt4 book ai didi

python - 链接检查器(蜘蛛爬虫)

转载 作者:行者123 更新时间:2023-11-28 22:07:52 25 4
gpt4 key购买 nike

我正在寻找一个链接检查器来抓取我的网站并记录无效链接,问题是我在开始时有一个登录页面,这是必需的。我想要的是一个链接检查器,用于运行命令后登录详细信息,然后抓取网站的其余部分。

任何想法都将不胜感激。

最佳答案

我最近刚刚解决了一个类似的问题:

import urllib
import urllib2
import cookielib

login = 'user@host.com'
password = 'secret'

cookiejar = cookielib.CookieJar()
urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))

# adjust this to match the form's field names
values = {'username': login, 'password': password}
data = urllib.urlencode(values)
request = urllib2.Request('http://target.of.POST-method', data)
url = urlOpener.open(request)
# from now on, we're authenticated and we can access the rest of the site
url = urlOpener.open('http://rest.of.user.area')

关于python - 链接检查器(蜘蛛爬虫),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1510211/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com