- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
例如,如果我想在我的页面上禁止以下路径: http://www.examplepage.com/en/testing
但不仅是/en/版本,还有/da/、/de/等(你明白我的意思)。
我将如何以最聪明的方式做到这一点?无需为每种语言的相同页面编写禁止。
我试过:不允许:/*/testing和不允许:/*测试
但我发现它也不允许其他页面,例如: http://www.examplepage.com/en/news-page/testing等等
它应该只禁止我在帖子开头指定的路径。
最佳答案
在 robots.txt 中使用占位符/正则表达式非常有限且不可靠。有关详细信息,请参阅此问题:Regexp for robots.txt
最好的解决方案可能是单独列出所有语言或编写一个脚本来输出包含所有规则的列表。
关于web - robots.txt 排除带有语言的路径,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26522870/
我刚刚读到 JavaFX 有自己的 javafx.scene.robot.Robot类(class)。它与 java.awt.Robot 有何不同? ?我也不太明白为什么 Robot 类被打包在 ja
势场法是一种非常流行的机器人导航模拟。然而,有没有人在真正的机器人上实现过势场法?在真实机器人中使用该方法的任何引用或任何声明? 最佳答案 我之前做过基于潜在场的路径规划,但放弃了它,转而采用更合适的
任何人都可以在以下情况下解释正确的robots.txt命令。 我想允许访问: /directory/subdirectory/.. 但是我也想限制访问/directory/,尽管有上述异常(excep
假设我有一个测试文件夹 (test.domain.com) 并且我不希望搜索引擎在其中抓取,我是否需要在测试文件夹中有一个 robots.txt 或者我可以只放置一个 robots.txt在根目录中,
关闭。这个问题是off-topic .它目前不接受答案。 想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q
这个问题在这里已经有了答案: order of directives in robots.txt, do they overwrite each other or complement each ot
关闭。这个问题是opinion-based .它目前不接受答案。 想改进这个问题?更新问题,以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 7 年前。 Improv
我刚刚安装了 Microsoft Robotics Studio 2008 R2,我必须承认我很震惊地发现路径的处理方式。 第一个工作室想要将自己安装到我的个人资料中(这是在 Vista 上): C:
我只想允许目录 /minsc 中的一个文件,但我想禁止该目录的其余部分。 现在 robots.txt 中是这样的: User-agent: * Crawl-delay: 10 # Directorie
我正在编写一个将 youtube.com 映射到另一个域的代理服务器(因此用户可以轻松地从德国等国家/地区访问 youtube,而无需审查搜索结果和视频)。 不幸的是,我的 robots.txt 中存
我一直使用 robots.txt 文件阻止谷歌将我的网站编入索引。最近我读了一篇来自谷歌员工的文章,他说你应该使用元标记来做到这一点。这是否意味着 Robots.txt 不起作用?由于我使用的是 CM
我拥有一些在大学注册的网站空间。不幸的是,谷歌在该网站上找到了我的简历(简历),但错误地将其索引为学术出版物,这在谷歌学术上搞砸了引用计数之类的事情。我尝试上传 robots.txt进入我的本地子目录
我在不同的子域上托管了 dev.example.com 和 www.example.com。我希望爬虫删除 dev 的所有记录子域,但将它们保留在 www .我使用 git 来存储两者的代码,所以理想
我有此结构的链接: http://www.example.com/tags/等等 http://www.example.com/tags/ blubb http://www.example.com/t
http://plus.google.com/robots.txt具有以下内容: User-agent: * Disallow: /_/ 我假设这意味着搜索引擎可以索引根以外的第一层中的任何内容,而不
Google 网站站长工具中的我的 robots.txt 显示以下值: User-agent: * Allow: / 这是什么意思?我对此了解不够,所以寻求您的帮助。我想允许所有机器人抓取我的网站,这
已关闭。这个问题是 off-topic 。目前不接受答案。 想要改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 已关闭11 年前。 Improve th
我只想允许主要 URL(域)和 http://domain/about,其他 URL 对搜索 google 不可见。示例我有如下链接: http://example.com http://exampl
我想禁止机器人抓取任何文件夹/子文件夹。 我想禁止 ff: http://example.com/staging/ http://example.com/test/ 这是我的 robots.txt 中
我是一名优秀的程序员,十分优秀!