gpt4 book ai didi

php - 如何检查页面是否没有索引?

转载 作者:行者123 更新时间:2023-12-04 13:47:59 25 4
gpt4 key购买 nike

我的目的是使用 PHP 获取链接,也许使用 Simple PHP DOM parser (或类似的东西)解析内容并查找 H1-H6 标签。但在此之前,我需要确定该页面是否已被编入索引。

除了解析内容和搜索 <meta name="robots" content="noindex">或类似的,有没有办法检查页面是否也在 robots.txt 中设置为 noindex?

最佳答案

页面指​​定 noindex 有两种方式:通过部分中的元 HTML 标记(如您所述),或通过响应中的 HTTP header 。
最重要的是,有两种方法可以指定 noindex:一种是“noindex”,另一种是“none”(相当于“noindex,nofollow”)。
HTML 标签可以定位多个爬虫,可能如下所示:

<meta name="robots" content="noindex" />
或者
<meta name="googlebot" content="noindex" />
或者
<meta name="AdsBot-Google" content="noindex" />
或其他。
Google 有一个 pretty good writeup here
因此,检查 noindex 的方法是同时执行以下两项操作:
  • 检查 HTTP 响应中包含“noindex”或“none”的 X-Robots-Tag(尝试 curl -I https://www.example.com 以查看它们的外观)
  • 获取 HTML 并扫描元标记以查找内容属性中的“noindex”或“none”
  • 关于php - 如何检查页面是否没有索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42237698/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com