gpt4 book ai didi

html - 不希望抓取包含的文件内容

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:45:18 25 4
gpt4 key购买 nike

我有一个包含页脚 html 文件的 html 文件。问题是,页脚包含一堆我不想抓取的信用和版权信息 - 它会降低我的关键字密度。我已经“禁止”robots.txt 文件中的页脚文件,并且在头部放置了一个标签。

这足以防止那部分内容被抓取吗?我读过一个 iFrame 技巧,如果我所做的还不够,我可能会尝试。

哎呀,你会认为有更简单的方法来排除 block ...

TIA。

最佳答案

尝试使用 robots.txt。

要禁止所有页面使用:

User-agent: *
Disallow: /

要禁止某些页面使用:

User-agent: *
Disallow: /test/
Disallow: /donotcrawl.html

您不能只“禁止”网页的一部分(即:页眉、页脚...)。要么一无所有。

我不会使用 Iframe 来解决该问题。如果您使用的是 PHP,则可以仅使用 robots.txt 和 include() 包含您想要的内容,例如页脚、页眉或导航菜单。

关于html - 不希望抓取包含的文件内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23395464/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com