gpt4 book ai didi

wordpress - 如何防止抓取我博客的更新?

转载 作者:行者123 更新时间:2023-12-02 05:05:04 24 4
gpt4 key购买 nike

我有一个自托管的 wordpress 博客,正如几乎预料的那样,我发现有另一个博客正在抓取我的内容,发布我自己的帖子的完美副本(文本、图像没有被热链接但被获取并重新上传到克隆的服务器,html帖子中的布局)延迟了几个小时。

但是我必须承认,当我在 Google 上搜索与我的帖子相关的关键字时,我很生气地看到,抓取的克隆总是排在第一位。

所以,我在这里,欢迎您提出建议,您知道如何防止我的网站被成功抓取吗?

技术精度:

  • 克隆博客似乎是自托管的,我也是,我在 debian+webmin+virtualmin dedi 上
  • 我的 RSS 提要已经被中途“阅读更多内容”截断了。嘿,我只是想我应该发布一个帖子,同时给它分配一个日期,比如 2001-01-01,看看它是否出现在克隆博客上,这样就可以知道我的 RSS 是否仍然被用作“嘿,抓紧时间!”
  • 我的日志在合法流量中找不到抓取工具,要么无法识别,要么在合法流量的洪流中丢失
  • 我已经 htaccess-banned 和 iptables-banned 克隆的 .com 域,尽管如此我的内容仍然被克隆
  • 克隆网站使用反向代理,所以我无法追踪它的托管位置以及应该阻止哪些实际 IP(好吧,除非我 iptables-ignore-ban 半个欧洲来禁止其整个 IP 范围数据存储设施,但我有点不情愿!)
  • 我相信这不是手工制作的,克隆已经运行了两年,每天都没有失败
  • 只有我的新帖子被克隆,而不是我网站的其余部分(不是边栏,不是与 wordpress 帖子相对的 wordpress 页面,不是单个页面),所以设置一个 jail.html 来记录谁打开它页面行不通,没有蜜 jar
  • 当我的帖子包含指向我网站另一页面的内部链接时,克隆上的帖子不会被重写,仍会指向我自己的网站

我很乐意就此问题提供帮助和建议。不是被克隆,而是在我是原始发布者时失去了该机器人的流量。

最佳答案

你最终无法真正阻止他们,但你也许能够找到他们并惹恼他们。尝试将请求 IP 隐藏在 HTML 注释或白底文本中,或隐藏在不碍事的地方,然后查看副本上显示的 IP。如果需要,您还可以尝试混淆该文本,方法是将它变成十六进制字符串或其他东西,这样对于不知道的人来说就不那么明显了,或者让它看起来像错误代码,这样他们就不会明白什么你在做什么。

不过,最后我不确定它能给你买多少钱。如果他们真的不专心,而不是关闭他们并提醒他们注意您正在关注他们这一事实,您可以在他们的一个 IP 突然出现时向他们提供胡言乱语或其他任何内容。这可能很有趣,并且通过将示例文本放入马尔可夫链来制作乱码生成器并不难。

编辑:哦,如果页面没有被重写太多,您可以添加一些内联 JS 来使它们链接到您,如果它们不删除它的话。比如,只有当他们不在您的站点时才会显示的横幅,提供您文章的原始链接并建议人们阅读。

关于wordpress - 如何防止抓取我博客的更新?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12709585/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com