web-crawler - 从搜索引擎阻止网站

web-crawler - 从搜索引擎阻止网站 - DuckDuckGo

转载作者：行者123 更新时间：2023-12-04 22:21:22

26

4

我有一个开发网站https://text-domain.com . (不是真正的网站)
当我去https://duckduckgo.com并搜索 text-domain.com，它确实会返回结果。

到目前为止我尝试了什么:

已创建 robots.txt带有以下代码的文件(放在我的根目录中，即 text-domain.com/robots.txt):

User-agent: *
Disallow: /

然后在我的模板文件中添加这样的元标记:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

即使在这样做之后，我还是在 DuckDuckGo 上进行了搜索，结果也一样。欢迎大家提出意见。

附注

您好，等了几天后，有2个发现:

尽管如此，仍会获取搜索结果。

但是我看到一条关于该结果的消息说:“我们想展示
您在此处进行描述，但该网站不允许我们。”

是否可以完全阻止显示在结果中？

最佳答案

DuckDuckGo 在包含在他们的结果中是一个奇怪的鸭子。我已经在许多搜索引擎上对这个主题进行了大量研究，并与 DDG 来回发了一些电子邮件。
这是交易。他们从其他搜索引擎获取内容，如 listed here .据我所知，他们的搜索结果并未指明哪个搜索引擎是其来源，因此要删除您的内容，您基本上需要上游到所有来源并从那里删除您的内容。如果这听起来很麻烦，请不要担心 - 无论如何您都想这样做，对吗？
DDG 也有自己的爬虫，恰本地称为 the DuckDuckBot .确实如此不是荣誉noindex HTML 标记，也不是 HTTP header (它确实尊重 robots.txt )，但这似乎无关紧要，因为 DuckDuckBot 没有创建新的结果 .据我所知，这在任何地方都没有记录，但我与他们的工作人员进行了交谈，我在下面引用了这些内容:
DDG 说 (2014-06-06):

We get our results from multiple sources and our own crawler wouldn't be the cause of your [problem]. Our crawler only does very specific tasks, like looking (and not actually crawling) parked domains, spam sites, etc.

If there are results from [your website] appearing on DuckDuckGo and shouldn't be, they're likely flowing from one of our upstream sources. If removed there, then they'll stop showing in our results.

我回应:

OK, so nothing gets put in your index via your crawlers, which indeed do not support noindex HTML or HTTP tags?

他们确认:

Yep! Sorry for the confusion and, if you see anything out of the ordinary, please feel free to let us know.

那么剩下的唯一问题是如何从上游提供商中删除您的内容。为此，我指向您 my blog因为它因提供商而异。它的关键是:

使用 noindex HTML 元标记和 x-robots HTTP 标记(用于图像等)告诉搜索引擎不要在其结果中包含某些内容；

在您的 sitemap.xml 中列出您的整个网站文件，以便所有搜索引擎都可以在那里找到它。

使用 robots.txt屏蔽不支持的搜索引擎noindex或 x-robots标签。

对于奖励积分:

设置您的 sitemaps.xml文件，所以他们有 noindex设置(因此不会出现在搜索结果中)。

为您的 robots.txt 做同样的事情文件。

这是一个复杂的世界。

关于web-crawler - 从搜索引擎阻止网站 - DuckDuckGo，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18079649/

26

4

0

文章推荐： powershell - 在 Powershell 中使用 Import-CSV，忽略注释行

文章推荐： r - 比较向量值

文章推荐： r - R:提取文件名的一部分

jsp - 如何从JSP输出HTML <%! ... %> 阻止？
我刚开始学习JSP技术，遇到了瓶颈。如何从 JSP 声明 block ？这不起作用: ... 服务器说没有“out”。 U: 我确实知道如何使用返回字符串的方法重写代码，但是有没有办法在？
lucene - Elasticsearch 阻止
在一个字段中，我想设置一个具有自定义过滤器的自定义分析器-着眼于词干-因此，“闪存卡”和“闪存卡”的词根相同，因此返回的结果相同当我运行以下查询时，我的命中率很高，但是“闪存卡”和“闪存卡”各自返回
c# - 阻止 WM_QUIT
快速提问。我有一个通过 PInvoke 使用 native DLL 的应用程序，这个 DLL 可能会调用 PostQuitMessage()。如何避免？ (因为我的应用程序不应该关闭) 我试过 A
javascript - 阻止 $(this) 元素上的事件
一些给定的 HTML 文章，例如: Content 与一些基本的 Jquery 结合使用，例如: $(".some_
Javascript 阻止 css？
我正在构建一个灯箱相册。当第一个图像加载时，CSS 转换起作用。当加载后的每个图像都没有。任何想法为什么？加载第一张之后的照片，但没有过渡。 Image.prototype.load = functi
android - 阻止/禁用最近使用的应用程序按钮
这个问题在这里已经有了答案: Disable recent tasks button on Android 5.0 (2 个答案) 关闭 2 年前。我知道这个问题之前在这里被问过 Android
iphone - 阻止 UIAlertViewDelegate
我是 Objective-C 的新手，我只是想弄清楚我是否可以使用 block 或选择器作为 UIAlertView 的 UIAlertViewDelegate 参数 - 哪个更合适？我已经尝试了以
c - 为什么不接受()阻止？
我是 Linux (UNIX) 套接字下套接字编程的新手。我在 Internet 上找到了以下代码，用于为每个连接生成一个线程的 tcp 服务器。但是它不起作用。accept() 函数立即返回，不等待
阻止 recv() 返回少于请求字节的情况
recv()库函数手册页提到: It returns the number of bytes received. It normally returns any data available, up
typescript - 阻止 WebStorm 建议索引导入
我有一个用于其他项目的共享 ts 库。在这个库中有被同一个库的其他资源使用的资源。该库的结构分为 components/*、interfaces/*、services/* 等目录。在每个目录的根目录中
Flutter 阻止 ListView 以新行显示
我想在同一行中一个接一个地显示我的 ListView ，但 ListView 显示每个新行中的每个项目。我怎样才能防止换行显示。以便它显示为段落 ListView.builder( shr
reactjs - 阻止 `useSelector` 重新渲染组件？
我有一个包含数千行的表格。 import React from "react" import { useSelector } from "react-redux"; import { useEffec
haskell - 阻止 GHC 警告我一个特定的缺失模式
假设我通常希望收到关于代码中不完整模式的警告，但有时我知道某个函数的模式不完整，我知道这很好。是still true GHC 的警告粒度是每个模块的，并且没有办法更改有关特定功能或定义的警告？最佳
javascript - 我如何知道浏览器通知是否被 Windows 阻止
我的网络应用程序发送浏览器通知，我知道如何检查通知的浏览器权限，以及如果未授予权限，如何请求权限。但是，即使用户授予我的站点发送通知的权限，她可能仍然无法收到通知，因为它们 might be dis
xcode - 阻止 Xcode 将文本转换为超链接？
我有 Xcode 3.2.1，并且喜欢使用它，但是当我编辑文本中带有超链接的文件时(例如，带有引用的注释:# see http://example.com)Xcode 将文本变成可点击的超链接。尝试编
excel - 阻止 Excel 将日期转换为数字
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许在 Stack Overflow 上提出有关通用计算硬件和软件的问题。您可以编辑问题，使其成为
php - 阻止 Controller 执行
我有一个在 MY_Controller 中运行的 acl。如果权限被拒绝，那么此刻，我只是执行 redirect('denied') - 这是一个非常基本的 Controller ，它加载一个非常基本
firefox - 阻止 Firefox 缓存本地主机？
我一直很好奇尝试从 Chrome 切换到 Firefox Quantum，但是对于 Web 开发遇到了一个我无法轻松解决的主要障碍——它正在缓存我的本地主机文件，因此当我尝试在本地主机加载各种 emb
xcode - 阻止 Xcode 记住我以前打开的项目
这真的让我很兴奋!在任何时候，我都会参与多个项目。当我退出Xcode时，下次打开Xcode时，我前一天的所有项目都会自动一一打开。经常我最终编辑错误的文件，AHHHHHHHHHHH!我可以阻止这种行
wiki - MediaWiki大量用户删除/合并/阻止
我的Wiki上有500个左右的Spambot和大约5个实际注册用户。我已经使用nuke删除了他们的页面，但是他们一直在重新发布。我已经使用reCaptcha控制了spambot的注册。现在，我只需要一

首页

博学

6Ren·AI

商城

web-crawler - 从搜索引擎阻止网站 - DuckDuckGo