gpt4 book ai didi

python - 在 python 中解析 Robots.txt

转载 作者:行者123 更新时间:2023-12-05 08:56:00 26 4
gpt4 key购买 nike

我想用 python 解析 robots.txt 文件。我探索了 robotParser 和 robotExclusionParser 但没有什么能真正满足我的标准。我想一次获取所有 diallowedUrls 和 allowedUrls,而不是手动检查每个 url 是否允许。有图书馆可以做到这一点吗?

最佳答案

为什么您必须手动检查您的网址?您可以在 Python 3 中使用 urllib.robotparser,并执行类似这样的操作

import urllib.robotparser as urobot
import urllib.request
from bs4 import BeautifulSoup


url = "example.com"
rp = urobot.RobotFileParser()
rp.set_url(url + "/robots.txt")
rp.read()
if rp.can_fetch("*", url):
site = urllib.request.urlopen(url)
sauce = site.read()
soup = BeautifulSoup(sauce, "html.parser")
actual_url = site.geturl()[:site.geturl().rfind('/')]

my_list = soup.find_all("a", href=True)
for i in my_list:
# rather than != "#" you can control your list before loop over it
if i != "#":
newurl = str(actual_url)+"/"+str(i)
try:
if rp.can_fetch("*", newurl):
site = urllib.request.urlopen(newurl)
# do what you want on each authorized webpage
except:
pass
else:
print("cannot scrap")

关于python - 在 python 中解析 Robots.txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43085744/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com