- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我很确定很多人都想到了这个,但出于某种原因我无法使用 Google 和 StackOverflow 搜索找到它。
我想创建一个不可见的链接(被 robots.txt 列入黑名单)到 CGI 或 PHP 页面,以“诱捕”恶意机器人和蜘蛛程序。到目前为止,我已经尝试过:
正文中的空链接:
<a href='/trap'><!-- nothing --></a>
这在大多数情况下工作得很好,有两个小问题:
问题:链接是文档正文的一部分。尽管用鼠标几乎无法点击它,但一些访问者在使用 Tab 和 Enter 键盘导航网站时仍然会不经意地点击它。此外,如果他们将页面复制粘贴到文字处理器或电子邮件软件中,例如,陷阱链接会被复制,有时甚至可以点击(有些软件不喜欢空的 <a>
标签,并将 href 复制为标签的内容)。
体内的隐形障碍物:
<div style="display:none"><a href='/trap'><!-- nothing --></a></div>
这解决了键盘导航的问题,至少在我测试的浏览器中是这样。该链接实际上无法从页面的正常显示中访问,但对于大多数具有当前智能水平的蜘蛛机器人来说仍然是完全可见的。
问题:链接仍然是 DOM 的一部分。如果用户复制粘贴页面内容,它会重新出现。
内部评论 block :
<!-- <a href='/trap'>trap</a> -->
这有效地从页面的 DOM 中删除了链接。好吧,从技术上讲,评论仍然是 DOM 的一部分,但它达到了合规的用户代理不会生成 A 元素的预期效果,因此它不是实际链接。
问题:如今大多数蜘蛛机器人都足够聪明,可以解析 (X)HTML 并忽略注释。我亲眼见过使用 Internet Explorer COM/ActiveX 对象解析 (X)HTML 并通过 XPath 或 Javascript 提取所有链接的机器人。这些类型的机器人不会被诱骗进入陷阱超链接。
我一直在使用方法 #3 直到昨晚,当我被一群机器人击中时,这些机器人似乎非常有选择性地选择它们遵循的链接。现在我回到方法 #2,但我仍在寻找更有效的方法。
我错过了任何建议或其他不同的解决方案吗?
最佳答案
按照你说的添加:
<a id="trap" href='/trap'><!-- nothing --></a>
然后用 javascript/jQuery 删除它:
$('#trap').remove();
垃圾邮件机器人不会执行 javascript 也不会看到该元素,几乎所有浏览器都会删除该元素,从而无法通过 Tab 键点击它
编辑:最简单的非 jQuery 方法是:
<div id="trapParent"><a id="trap" href='/trap'><!-- nothing --></a></div>
然后用javascript删除它:
var parent = document.getElementById('trapParent');
var child = document.getElementById('trap');
parent.removeChild(child);
关于html - 使链接完全不可见?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3648112/
1。 Set 的 parallelStream 没有使用足够的线程。 Java8 parallelStream 不能完全并行工作。在我的计算机中,当任务数小于处理器数时,java8 集的 parall
我想将位置发送到 Google Geocoding API,因此我想用 + 替换文本中的任何空格或逗号(因为可以接收)。 例如,所有这些样本应返回 Glentworth+Ireland: Glentw
所以我需要为将要上传的图像文件生成较小的预览,并且我必须在每个文件名的末尾附加“_preview”。 目前我正在这样做: uploadFile.map((file) => { if (fi
我们可以用参数定义类型同义词,这在与实际类型一起使用时效果很好: type MyType t = t String String data Test a b = Test a b f :: MyTyp
给定一个包含一些 TGraphic 后代的 Delphi TPicture,我需要计算像素颜色和不透明度。我认为我必须为每个类提供不同的实现,并且我认为我已经涵盖了 TPngImage。 32 位位图
我正在调试 Powershell 项目。我正在使用 Import-Module 从我的 C# dll 加载 PS 模块,一切正常。尽管调用 Remove-Module 并不会完全卸载模块,因为 DLL
有没有办法在ElasticSearch中要求完整(尽管不一定精确)匹配? 例如,如果一个字段具有术语"I am a little teapot short and stout",我想匹配" i am
我正在尝试根据日期范围连接两个表。 表A格式为: ID CAT DATE_START DATE_END 1 10 2018-01-01 2020-12-31 2
我最近加入了一家公司,在分析他们的环境时,我注意到 SharePoint web.config 的信任级别设置为“完全”。我知道这绝对是一个糟糕的做法,并且希望 stackoverflow 社区能够帮
我构建了一个完全依赖 AJAX 的 php/js 应用程序,因此没有任何内容是静态的。 我正在尝试找到一种方法来转换基于内容的广告,该广告使用 AJAX 交付的内容作为关键字。 Google 的 Ad
我正在尝试根据日期范围连接两个表。 表A格式为: ID CAT DATE_START DATE_END 1 10 2018-01-01 2020-12-31 2
我熟悉 FileSystemWatcher 类,并使用它进行了测试,或者我使用快速循环进行了测试,并在目录中列出了类型文件的目录列表。在这种特殊情况下,它们是 zip 压缩的 SDF 文件,我需要解压
按照 Disqus 上的教程进行操作时,评论框不会呈现。从 disqus 上找到的管理员看来,它的设置似乎是正确的。 var disqus_config = function () { this
是否可以使用 Cython 将 Python 3 应用程序完全编译/链接为可执行格式(当然假设所有使用的模块都是 cythonable)。 我在 Linux 下工作,我希望获得一个依赖性尽可能小的 E
我有一个 C# 控制台应用程序,而不是运行预构建步骤(以获取 NuGet 包)。 当我调试这个时,我想传入一个参数并显示控制台。当我不调试它时,我不想看到它。我什至不希望它在那里闪烁一秒钟。 我找到了
我在 n 个节点上有一个完整的 19 元树。我标记所有具有以下属性的节点,即它们的所有非根祖先都是最年长或最小的 child (包括根)。我必须为标记节点的数量给出一个渐近界限。 我注意到 第一层有一
我正在阅读一篇关于 Java Volatile 关键字的文章,遇到了一些问题。 click here public class MyClass { private int years;
一本书中写道——“如果问题 A 是 NP-Complete,则存在解决 A 的非确定性多项式时间算法”。但据我所知,"is"——NP 完全问题的答案可以在多项式时间内“验证”。我真的很困惑。能否使用非
考虑以下问题: 有N个硬币,编号为1到N。 你看不到它们,但是给出了关于它们的 M 个事实,形式如下: struct Fact { set positions int num_head
我想制作一个包装数字类型的类型(并提供额外的功能)。 此外,我需要数字和包装器可以隐式转换彼此。 到目前为止我有: template struct Wrapper { T value;
我是一名优秀的程序员,十分优秀!