gpt4 book ai didi

linux - 用于查找机器人元标记值的 Bash shell 脚本

转载 作者:太空宇宙 更新时间:2023-11-04 11:42:55 24 4
gpt4 key购买 nike

我找到了这个 bash 脚本到 check status of URLs from text file并在进行重定向时打印目标 URL:

#!/bin/bash
while read url
do
dt=$(date '+%H:%M:%S');
urlstatus=$(curl -kH 'Cache-Control: no-cache' -o /dev/null --silent --head --write-out '%{http_code} %{redirect_url}' "$url" )
echo "$url $urlstatus $dt" >> urlstatus.txt

done < $1

我不太擅长 bash:我想为每个 url 添加其 Robots 元标记的值(如果存在)

最佳答案

实际上我真的建议使用 DOM 解析器(例如 Nokogiri、hxselect 等),但是您可以这样做(例如处理以 <meta 开头的行并“提取”机器人属性内容的值):

curl -s "$url" | sed -n '/\<meta/s/\<meta[[:space:]][[:space:]]*name="*robots"*[[:space:]][[:space:]]*content="*\([^"]*\)"*\>/\1/p'

这将打印属性的值或空字符串(如果不可用)。

您需要纯 Bash 解决方案吗?或者你有sed

关于linux - 用于查找机器人元标记值的 Bash shell 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58727123/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com