gpt4 book ai didi

c# - robots.txt 如何禁止除站点地图中的 URL 之外的所有 URL

转载 作者:行者123 更新时间:2023-11-30 22:43:40 27 4
gpt4 key购买 nike

我需要控制哪些 URL 可以被编入索引。为此,我希望允许 Google 仅索引我的站点地图中列出的 URL,并禁止 Google 索引任何其他内容。

解决此问题的最简单方法是,是否可以配置 robots.txt 以禁止所有内容:

User-agent: *

Disallow: /

同时允许列出的每个 URL:

Sitemaps: sitemap1.xml

Sitemaps: sitemap2.xml

可以配置 robots.txt 来执行此操作吗?或者还有其他解决方法吗?

最佳答案

这不是与 robots.txt 相关的答案,它与整个 Robots 协议(protocol)相关,我过去非常经常使用这种技术,它的效果非常好。

据我了解您的网站是动态的,那么为什么不使用 robots meta tag ?正如 x0n 所说,一个 30MB 的文件可能会给你和爬虫带来问题,而且将新行附加到 30MB 的文件是一个令人头疼的 I/O。无论如何,在我看来,你最好的选择是在你不希望被索引的页面中注入(inject)如下内容:

<META NAME="ROBOTS" CONTENT="NOINDEX" />

该页面仍会被抓取,但不会被编入索引。您仍然可以通过 robots.txt 中的站点地图引用提交站点地图,您不必注意不要将站点地图页面包含在使用元标记自动删除的站点地图页面中,并且所有主要搜索引擎都支持它,我记得百度也是。

关于c# - robots.txt 如何禁止除站点地图中的 URL 之外的所有 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3845341/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com